自 20 世 纪 80 年 代 以 来 ， 机 器 学 习 已 经 在 算法 、 理 论 和 应 用 等 方面 取得 了 巨大 成 功 ， 广 泛 应 用 于 产业 界 与 学 术 界 。 简 单 来 说 ， 机 器 学 习 就 是 通过 算法 使 得 机 器 能 从 大 量 历史 数据 中 学 习 规律 ， 从 而 对 新 的 
祥 本 完成 智能 识别 或 对 未 来 做 预测 。 深 度 学 习 是 一 种 机 器 学 习 方法 ， 在 一 些 最 新 的 研究 领域 和 新 的 应 用 背景 下 ， 可 用 数据 量 的 激增 、 计 算 能 力 的 增强 以 及 计算 成 本 的 降低 为 深度 学 习 的 快速 发 展 铺 平 了 首 
路 ， 同 时 也 为 深度 学 习 在 各 大 领域 的 应 用 提供 了 支撑 。 自 AlphaGo 被 提出 并 成 功 击败 职业 围棋 手 后 ，“ 深 度 学 习 ” 这 一 概念 快速 进入 人 们 的 视野 并 在 业界 引起 了 友 动 ， 其 因 强 大 的 特征 提取 能 力 以 及 灵活 性 
在 国内 外 各 大 企业 中 掀起 一 阵 狂潮 ， 在 语音 识别 、 图 像 识别 和 图 像 处 理 领域 取得 的 成 果 尤为 突出 。 


本 书 是 以 实践 案例 为 主 的 深度 学 习 框架 结合 编程 实战 的 综合 性 著作 ， 将 带领 读者 逐步 掌握 深度 学 习 需 要 的 数据 处 理 、 调 整 参 数 、 运 行 实例 和 二 次 编码 ， 不 仅 帮助 读者 理解 理论 知识 ， 而 且 能 够 使 读者 熟 
练 掌握 各 种 深度 学 习 框 架 下 的 编程 控制 。 本 书 配 有 大 量 的 实践 案例 ， 既 便于 课堂 教学 ， 又 便于 学 生 自 学 。 此 外 本 书 还 配 有 同步 PPT 课 件 和 程序 源码 ， 可 供 教师 进行 实验 课程 辅导 。 


本 书 介绍 了 四 种 深度 学 习 框 架 (TensorFlow、Caffe、Torch、MXNet) 的 运行 原理 ， 配 合 实例 介绍 了 框架 的 详细 安装 、 程 序 设 计 、 调 参 和 二 次 接口 的 详细 编程 过 程 ， 引 领 读者 完整 搭建 深度 学 习 框 
架 ， 相 信 本 书 能 够 从 实战 的 角度 帮助 读者 快速 掌握 和 提高 深度 学 习 编 程 的 技能 。 


全 书 内 容 可 分 为 绪论 、 四 大 框架 、 迁 移 学 习 和 并 行 计算 /交叉 验证 四 大 部 分 ， 共 7 章 。 


第 1 章 讨论 深度 学 习 与 机 器 学 习 的 关系 、 深 度 学 习 与 统计 学 的 关系 、 深 度 学 习 框 架 、 深 度 学 习 中 涉及 的 优化 方法 以 及 对 深度 学 习 的 展望 五 个 方面 的 内 容 ， 从 理论 上 对 深度 学 习 进 行 全 面 深刻 的 剖析 ， 虽 在 
为 后 续 学 习 提 供 理论 铺垫 与 指导 。 


第 2 章 对 TensorFlow 深 度 学 习 框架 进行 详细 介绍 ， 主 要 包括 TensorFlow 运 作 原 理 、 模 型 构建 、 框 架 安 装 ， 并 进一步 介绍 了 TensorFlow 框 架 下 具体 网 络 的 图 像 分 类 编程 实现 以 及 详细 代码 的 解读 。 


第 3 章 从 理论 与 实战 两 方面 对 Caffe 深 度 学 习 框架 的 发 展 、 结 构 以 及 具体 的 搭建 过 程 进行 详细 介绍 ， 并 在 Caffe 深 度 学 习 框 架 下 构建 全 卷 积 神经 网 络 (Fully Convolutional Network, FCN) ， 用 该 网 络 
进行 图 像 语义 分 割 的 实战 编程 ， 对 该 案例 程序 代码 进行 详细 解读 。 


第 4 章 介绍 Torch 深 度 学 习 框架 的 基础 知识 ， 同 时 介绍 Torch 深 度 学 习 框 架 中 使 用 的 Lua 语 言 ; 按照 Torch 框 架 的 安装 过 程 ， 以 一 个 具体 的 目标 检测 实例 为 出 发 点 ， 详 细 介绍 Torch 的 类 和 包 的 用 法 以 及 构 
建 神经 网 络 的 全 过 程 ， 最 后 介绍 Faster R-CNN 的 方法 和 实例 。 


第 5 章 对 MXNet 框 架 进 行 详细 介绍 ， 包 括 MXNet 的 基本 概念 和 特点 、MXNet 的 安装 过 程 等 ， 利 用 自然 语言 处 理 的 实例 来 进一步 展示 MXNet 在 深度 学 习 方 面 的 应 用 实战 。 
第 6 章 介绍 迁移 学 习 发 展 、 迁 移 学 习 的 类 型 与 模型 ， 并 以 实际 案例 对 迁移 学 习 的 过 程 进 行 详细 介绍 与 分 析 。 

第 7 章 人 在 深度 学 习 的 背景 下 分 别 对 并 行 计 算 和 交叉 验证 这 两 种 方法 进行 详细 介绍 。 

本 书 既 可 作为 大 学 本 科 、 研 究 生 相关 专业 教材 ， 也 适用 于 各 种 人 工 智能 、 机 器 学 习 的 培训 与 认证 体系 ， 同 时 可 供 广大 深度 学 习 开发 人 员 人 参考 。 


本 书 由 多 人 合作 完成 ， 其 中 ， 第 1 章 由 太原 理工 大 学 强 彦 编写 ， 第 2 章 由 太原 理工 大 学 赵 涓涓 编写 ， 第 3 章 由 太原 理工 大 学 王 华 编写 ， 第 4 章 由 太原 理工 大 学 肖 小 娇 编写 ， 第 5 章 由 晋 中 学 院 董 云云 编写 ， 
第 6 章 由 太原 理工 大 学 马 瑞 青 编写 ， 第 7 章 由 大 同 大 学 傅 文 博 编写 ， 全 书 由 强 彦 审阅 。 
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由 于 作者 水 平 有 限 ， 不 当 之 处 在 所 难免 ， 奶 请 读者 及 同仁 赐教 指正 。 


近 些 年 ， 深 度 学 习 因 在 许多 领域 都 取得 了 耀眼 的 成 绩 和 突破 性 的 进展 而 受到 学 术 界 及 工业 界 的 广泛 关注 ， 本 章 将 分 别 从 深度 学 习 与 机 器 学 习 的 天 系 、 深 度 学 习 与 统计 学 的 关系 、 深 度 学 习 框架 、 深 度 学 
习 中 涉及 的 优化 方法 以 及 深度 学 习 展望 五 个 方面 对 深度 学 习 进 行 全 面 深刻 的 剖析 ， 虽 在 为 后 续 学 习 提供 理论 铺垫 与 指导 。 


1.1 机 器 学 习 与 深度 学 习 


斯 坦 福 大 学 终身 教授 、ImageNet 数 据 库 的 缔造 者 、 现 任 GCoogle Cloud 首 席 科 学 家 的 华 谊 科学 家 李 必 飞 认为 “人 工 智 能 将 成 为 新 的 生产 力 ， 成 为 第 四 次 工业 革命 的 主要 推动 力 之 一 ”。 人 工 智 能 重 在 实 
现 机 器 智能 ， 实 现 的 方式 为 机 器 学 习 。 作 为 人 工 智能 的 重要 分 支 ， 机 器 学 习 主要 研究 的 是 如 何 使 机 器 通过 识别 和 利用 现 有 知识 来 获取 新 知识 和 新 技能 。 自 20 世 纪 80 年 代 以 来 ， 机 器 学 习 已 经 在 算法 、 理 论 和 
应 用 等 方面 都 取得 巨大 成 功 ， 而 被 广泛 应 用 于 产业 界 与 学 术 界 。 简 单 来 说 ， 机 器 学 习 就 是 通过 算法 使 得 机 器 能 从 大 量 历史 数据 中 学 习 规律 ， 从 而 对 新 的 样本 完成 智能 识别 或 对 未 来 做 预测 。 


而 深度 学 习 是 机 器 学 习 的 一 个 分 支 和 新 的 研究 领域 ， 如 今 在 大 数据 的 背景 下 ， 可 用 数据 量 的 激增 、 计 算 能 力 的 增强 以 及 计算 成 本 的 降低 为 深度 学 习 的 进一步 发 展 提供 了 平台 ， 同 时 也 为 深度 学 习 在 各 大 
领域 中 的 应 用 提供 了 支撑 。 自 AphaGo 被 提出 并 成 功 击败 职业 围棋 手 后 ，“ 深 度 学 习 ” 这 一 概念 快速 进入 人 们 的 视野 并 在 业界 引起 了 龙 动 ， 其 因 强 大 的 特征 提取 能 力 以 及 灵活 性 而 在 国内 外 各 大 企业 中 掀起 
一 阵 狂潮 ， 在 语音 识别 、 图 像 识 别 和 图 像 处 理 领域 取得 的 成 果 尤 为 突出 。 深 度 学 习 的 本 质 在 于 利用 海量 的 训练 数据 (可 为 无 标签 数据 ) ， 通 过 构建 多 隐 层 的 模型 ， 去 学 习 更 加 有 用 的 特征 数据 ， 从 而 提高 
据 分 类 效果 ， 提 升 预测 结果 的 准确 性 。 


本 节 将 从 时 期 阶段 发 展 和 模型 结构 发 展 的 角度 介绍 机 器 学 习 与 深度 学 习 之 间 的 关系 ， 并 在 此 基础 上 从 六 个 方面 对 机 器 学 习 和 深度 学 习 进 行 对 比 ， 从 而 进一步 前 述 二 者 之 间 的 关系 。 


1.1.1 机 器 学 习 与 深度 学 习 的 关系 


机 器 学 习 的 发 展 历程 大 致 可 以 分 为 五 个 时 期 ， 而 伴随 着 机 器 学 习 的 发 展 ， 深 度 学 习 共 出 现 三 次 浪潮 。 接 下 来 ， 以 机 器 学 习 的 发 展 作为 主线 来 介绍 不 同时 期 机 器 学 习 与 深度 学 习 之 间 的 关系 。 


第 一 个 时 期 从 20 世 纪 50 年 代 持 续 至 20 世 纪 70 年 代 ， 由 于 在 此 期 间 研究 人 员 致 力 于 用 数学 证 明 机 器 学 习 的 合理 性 ， 因 此 称 之 为 “推理 期 ”。 在 此 期 间 深 度 学 习 的 锥 形 出 现在 控制 论 中 ， 随 着 生物 学 习 理 论 
的 发 展 与 第 一 个 模型 的 实现 (感知 机 ，1958 年 ) ， 其 能 实现 单个 神经 元 的 训练 ， 这 是 深度 学 习 的 第 一 次 浪潮 。 


第 二 个 时 期 从 20 世 纪 70 年 代 持续 至 20 世 纪 80 年 代 ， 由 于 在 这 个 阶段 费 根 鲍 姆 (Edward Albert Feigenbaum) 等 机 器 学 习 专 家 认为 机 器 学 习 就 是 让 机 器 获取 知识 ， 因 此 称 之 为 “知识 期 ”， 在 此 期 间 深 
度 学 习 主 要 表现 在 机 器 学 习 中 基于 神经 网 络 的 连接 主义 。 


第 三 个 时 期 从 20 世 纪 80 年 代 持 续 至 20 世 纪 90 年 代 ， 这 个 时 期 的 机 器 学 习 专 家 主张 让 机 器 “主动 ”学 习 ， 即 从 样 例 中 学 习 知 识 ， 代 表 性 成 果 包 括 决 策 树 和 BP 神经 网 络 ， 因 此 称 这 个 时 期 为 “学 习 期 ”。 
在 此 期 间 深度 学 习 仍 然 表现 为 基于 神经 网 络 的 连接 主义 ， 而 其 中 BP 神 经 网 络 的 提出 为 深度 学 习 带 来 了 第 二 次 浪潮 。 其 实在 此 期 间 就 存在 很 好 的 算法 ， 但 由 于 数据 量 以 及 计算 能 力 的 限制 致使 这 些 算 法 的 良好 
效果 并 没有 展现 出 来 。 

第 四 个 时 期 欠 20 世 纪 初 持续 至 21 世 纪 初 ， 这 时 的 研究 者 们 开始 尝试 用 统计 的 方法 分 析 并 预测 数据 的 分 布 ， 因 此 称 这 个 时 期 为 “统计 期 ”， 这 个 阶段 提出 了 代表 性 的 算法 一 一 支持 向 量 机 。 而 此 时 的 深度 


学 习 仍 然 停留 在 第 二 次 浪潮 中 。 





第 五 个 时 期 从 20 世 纪 初 持续 至 今 ， 在 这 个 时 期 神经 网 络 再 一 次 被 机 器 学 习 专 家 重视 。2006 年 Hinton 及 其 学 生 Salakhutdinov 发 表 的 论文 《Reducing the Dimensionality of Data with Neural 
Networks》 标 志 着 深度 学 习 的 正式 复兴 ， 该 时 期 掀起 深度 学 习 的 第 三 次 浪潮 ， 同 时 在 机 器 学 习 的 发 展 阶段 中 被 称 为 “深度 学 习 ” 时 期 。 此 时 ， 深 度 神经 网 络 已 经 优 于 与 之 竞争 的 基于 其 他 机 器 学 习 的 技术 以 
及 手工 设计 功能 的 Al 系统 。 而 在 此 之 后 ， 伴 随 着 数据 量 的 爆炸 式 增 长 与 计算 能 力 的 与 日 俱 增 ， 深 度 学 习 得 到 了 进一步 的 发 展 。 


根据 机 器 学 习 的 模型 结构 ， 认 为 机 器 学 习 有 两 次 里 程 碑 式 的 变革 。 第 一 次 变革 为 浅 层 学 习 ， 所 谓 浅 层 学 习 是 指 网 络 层 数 较 少 (多 为 一 层 ) 的 人 工 神 经 网 络 。 称 其 为 第 一 次 变革 主要 是 因为 在 此 阶段 提出 
了 反 上 向 传播 算法 ， 该 算法 的 提出 可 以 使 人 工 神经 网 络 模型 从 大 量 的 训练 样本 中 “学习 ” 出 统计 规律 ， 从 而 对 未 知事 件 做 出 预测 。 第 二 次 变革 为 深度 学 习 ， 区 别 于 浅 层 神 经 网 络 ， 深 度 学 习 强 调 了 模型 结构 的 
深度 ， 同 时 明确 突出 了 特征 学 习 的 重要 性 ， 即 通过 逐 层 特征 变换 ， 将 样本 在 原 空间 的 特征 变换 到 一 个 新 特征 空间 ， 从 而 更 加 容易 地 进行 分 类 或 预测 。 


总 之 ， 无 论 从 发 展 历程 的 角度 还 是 从 模型 结构 的 角度 出 友 ， 深 度 学 习 都 与 机 器 学 习 息息相关 ， 并 且 在 机 器 学 习 领 域 中 占有 重要 地 位 ， 影 响 着 机 器 学 习 的 帮 展 趋势 。 


1.1.2 ”传统 机 器 学 习 与 深度 学 习 的 对 比 


传统 机 器 学 习 与 深度 学 习 在 理论 与 应 用 上 都 存在 差异 ， 下 面 将 分 别 从 数据 依赖 、 硬 件 支持 、 特 征 工程 、 问 题解 决 方案 、 执 行 时 间 以 及 可 解释 性 这 六 个 方面 对 传统 机 器 学 习 与 深度 学 习 的 差别 进行 比较 。 


数据 依赖 : 深度 学 习 和 传统 机 器 学 习 最 重要 的 区 别 是 前 者 的 性 能 随 着 数据 量 的 增加 而 增强 。 如 果 数 据 很 少 ， 深 度 学 习 算法 性 能 并 不 好 ， 这 是 因为 深度 学 习 算 法 需要 通过 大 量 数据 才能 很 好 地 理解 其 中 列 
含 的 模式 。 在 这 种 情况 下 ， 使 用 人 工 指定 规则 的 传统 机 器 学 习 占 据 上 风 。 


硬件 支持 : 深度 学 习 算 法 严重 依赖 于 高 端 机 ， 而 传统 机 器 学 习 在 低 端 机 上 就 可 以 运行 。 因 为 深度 学 习 需 要 进行 大 量 和 矩阵 乘法 操作 ， 而 GPU 可 以 有 效 优 化 这 些 操作 ， 所 以 GPU 成 为 其 中 必 不 可 少 的 一 部 


特征 工程 : 特征 工程 将 领域 知识 输入 特征 提取 器 ， 降 低 数 据 复杂 度 ， 使 数据 中 的 模式 对 学 习 算 法 更 加 明显 ， 并 得 到 更 优秀 的 结果 。 从 时 间 和 专业 性 方面 讲 ， 这 个 过 程 开销 很 大 。 在 机 器 学 习 中 ， 大 多 数 
使 用 的 特征 都 是 由 专家 指定 或 根据 先 验 知识 来 确定 每 个 数据 域 和 数据 类 型 。 比 如 ， 特 征 可 以 是 像素 值 、 形 状 、 纹 理 、 位 置 、 方 向 。 大 多 数 传统 机 器 学 习 方法 的 性 能 依赖 于 识别 和 抽取 这 些 特征 的 准确 度 。 


问题 解决 方案 : 当 使 用 传统 机 器 学 习 方 法 解决 问题 时 ， 经 常 采取 化 整 为 零 ， 分 别 解 决 ， 再 合并 结果 的 求解 策略 。 而 深度 学 习 主 张 端 到 端的 模型 ， 即 输入 训 | 练 数据 ， 直 接 输 出 最 终结 果 ， 让 网 络 自 己 学 习 
如 何 提取 关键 特征 。 如 图 1-1 所 示 为 传统 机 器 学 习 和 深度 学 习 对 比 流程 图 。 
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图 1-1 传统 机 器 学 习 和 深度 学 习 对 比 流程 图 


执行 时 间 : 深度 学 习 需 要 进行 很 长 时 间 的 训练 ， 因 为 深度 学 习 中 很 多 参数 都 需要 进行 远 超 正常 水 平 的 时 间 训练 ， 如 ResNet 大 概 需要 两 周 时 间 从 零 开 始 完成 训练 ， 而 机 器 学 习 只 需要 从 几 秒 到 几 小 时 不 等 
的 训练 时 间 。 测 试 所 需要 的 时 间 就 完全 相反 ， 深 度 学 习 算 法 运行 只 需要 很 少 的 时 间 。 


可 解释 性 : 假定 使 用 深度 学 习 给 文章 自动 评分 ， 会 发 现 性 能 很 不 错 ， 并 且 接 近 人 类 评分 水 准 ， 但 它 不 能 解释 为 什么 给 出 这 样 的 分 数 。 在 运行 过 程 中 可 以 发 现 深度 神经 网 络 的 哪些 节点 被 激活 ， 但 不 知道 
这 些 神经 元 是 对 什么 进行 建 模 以 及 每 层 在 干什么 ， 所 以 无 法 解释 结果 。 另 一 方面 ， 机 器 学 习 算 法 如 决策 树 按照 规则 明确 解释 每 一 步 做 出 选择 的 原因 ， 因 此 像 决策 树 和 线性 /逻辑 回归 这 类 算法 由 于 可 解释 性 良 
好 ， 在 工业 界 应 用 很 广泛 。 


12 统计 学 与 深度 学 习 


统计 学 是 一 门 古 老 的 学 科 ， 其 作为 机 器 学 习 的 理论 基础 这 一 事实 在 从 20 世 纪 60 年 代 就 开始 被 学 术 界 所 认可 。 直 到 20 世 纪 90 年 代 ， 伴 随 着 统计 学 理论 的 基本 成 熟 ， 研 究 者 们 开始 尝试 用 统计 学 的 方法 分 析 
并 预测 数据 的 分 布 ， 由 此 产生 了 著名 的 支持 向 量 机 算法 ， 如 今 这 种 算法 已 被 广泛 应 用 于 数据 分 析 、 模 式 识别 、 回 归 分 析 等 各 个 领域 。 


1.2.1 统计 学 与 深度 学 习 的 关系 
深度 学 习作 为 机 器 学 习 中 重要 的 分 支 ， 因 此 与 统计 学 同样 具有 密 不 可 分 的 关系 。 通 常 可 以 将 统计 学 分 为 两 大 类 ， 分 别 为 用 于 组 织 、 累 加 和 描述 数据 中 信息 的 描述 统计 学 和 使 用 抽样 数据 来 推断 总 体 的 推 
断 统计 学 。 深 度 学 习 则 是 通过 大 量 的 样本 数据 学 习 总 体 规则 的 方法 ， 可 见 深度 学 习 是 统计 学 对 实践 技术 的 延伸 。 


另外 ， 实 际 的 应 用 领域 中 经 常 需要 处 理 的 数据 都 具有 随机 性 和 不 确定 性 ， 对 这 些 数据 最 好 的 摘 述 方式 就 是 通过 概率 来 进行 描述 。 例 如 ， 在 图 像 识别 中 ， 若 要 对 模糊 或 残缺 的 图 像 进行 识别 ， 即 在 不 确定 
的 条 件 下 实现 图 像 的 正确 识别 ， 基 于 统计 学 的 深度 学 习 由 于 可 以 处 理 数据 的 随机 性 以 及 不 确定 性 ， 因 此 可 以 在 恶劣 的 条 件 下 实现 图 像 的 精准 识别 。 


深度 学 习 的 特点 在 于 先 设计 能 够 自我 学 习 的 神经 网 络 ， 然 后 将 大 量 的 数据 输入 网 络 中 进行 训练 ， 通 过 训练 神经 网 络 能 够 从 数据 集中 学 到 数据 的 内 在 结构 和 规律 ， 从 而 对 新 数据 做 出 预测 。 


从 统计 学 的 角度 来 看 ， 深 度 学 习 用 来 训练 的 数据 集 即 为 样本 ， 学 习 的 过 程 即 为 对 总 体 信息 进行 估计 。 对 于 无 监督 学 习 来 说 ， 每 一 个 输入 样本 是 一 个 向 量 ， 学 习 过 程 相当 于 要 估计 出 总 体 的 概率 分 布 。 而 


对 于 监督 学 习 来 说， 每 个 输入 样本 x 还 对 应 一 个 期 望 的 输出 值 y， 称 为 label 或 target， 那 么 学 习 的 过 程 相当 于 要 估计 出 总 体 的 条 件 概率 分 布 。 这 样 ， 当 系统 遇 到 新 的 样本 时 ， 就 能 给 出 对 应 的 预测 值 y。 


1.2.2 基于 统计 的 深度 学 习 技 术 


最 典型 的 基于 统计 的 深度 学 习 技术 有 受 限 玻 耳 将 曼 机 以 及 生成 对 抗 式 网 络 。 


受 限 玻 耳 效 曼 机 (Restricted Boltzmann Machine, RBM) 是 一 种 可 用 随机 神经 网 络 来 解释 的 概率 图 模型 。 随 机 神经 网 络 的 核心 在 于 在 网 络 中 加 入 概率 因素 ， 而 其 中 的 随机 是 指 这 种 网 络 中 的 神经 元 
是 随机 神经 元 ， 其 输出 只 有 两 种 状态 (0 或 1) ， 而 状态 的 取 值 根据 概率 统计 的 方法 确定 。RBM 属 于 深度 学 习 中 常用 的 模型 或 方法 ， 其 结构 如 图 1-2 所 示 。 
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图 1-2 ”RBM 结构 图 


其 中 ， 下 层 为 输入 层 ， 包 括 n 个 输入 单元 vn， 用 来 表示 输入 数据 ;上 层 为 隐藏 层 ， 包 含 m 个 隐藏 层 单元 hm，RBM 具 有 层 内 无 连接 、 层 间 全 连接 的 特征 ， 这 一 特点 可 以 保证 RBM 各 层 之 间 的 条 件 独立 
tee 


由 于 RBM 为 概率 模型 ， 而 训练 RBM 网 络 的 实质 就 在 于 能 够 使 RBM 所 表达 出 的 概率 分 布 尽 可 能 接近 真实 样本 的 分 布 。 而 实现 这 个 目的 RBM 经 典 训练 算法 就 是 对 比 散 度 (Contrastive Divergence, CD) 
算法 ， 即 在 每 次 训练 过 程 中 ， 以 数据 样本 为 初始 值 ， 通 过 Gibbs 采 样 获取 目标 分 布 的 近似 采样 ， 然 后 通过 近似 采样 获得 目标 梯度 ， 取 得 最 终 的 结果 。 简 单 来 说 ， 统 计 学 在 受 限 玻 耳 兹 曼 机 中 的 应 用 过 程 为 对 
图 像 进行 联合 分 布 概率 的 描述 ， 通 过 训练 可 以 使 RBM “学 ”到 输入 数据 的 统计 规律 ， 从 而 达到 提取 特征 的 目的 。 


RBM 网 络 是 以 统计 学 为 基础 进行 构建 和 训练 的 ， 是 最 典型 的 基于 统计 的 深度 学 习 技术 。 


个 


生成 对 抗 式 网 络 (Generative Adversarial Networks, GAN) 是 一 种 新 型 网 络 ， 是 由 Goodfellow 等 人 在 2014 年 提出 来 的 。 其 基本 思想 源 自 博弈 论 中 的 二 人 零 和 博弈 ， 网 络 模型 由 一 个 生成 网 络 和 一 
判别 网 络 构成 ， 生 成 网 络 用 来 学 习 样本 的 真实 分 布 并 用 服从 某 一 分 布 (高 斯 分 布 或 均匀 分 布 ) 的 噪声 生成 新 的 数据 分 布 ， 判 别 网 络 用 来 判别 输入 是 真实 样本 还 是 生成 网 络 生成 的 样本 ， 通 过 生成 网 络 与 判别 
网 络 的 对 抗 学 习 进 行 网 络 的 训练 。GAN 的 优化 过 程 是 极 小 极 大 博 弃 (Minimax game) 问题 ， 具 体 是 指 判 别 网 络 的 极 大 化 〈 即 判别 网 络 要 尽 可 能 区 分 真实 样本 和 生成 网 络 生成 的 样本 ) 和 生成 网 络 的 极 小 


化 ， 即 生成 网 络 生成 的 样本 要 尽 可 能 “欺骗 ”判别 网 络 ， 使 其 认为 是 真实 的 样本 ， 优 化 目标 为 达到 纳什 均衡 ， 使 生成 网 络 估 测 到 数据 样本 的 分 布 。GAN 的 计算 流程 与 结构 如 图 1-3 所 示 。 
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图 1-3 ”生成 对 抗 式 网 络 流 程 与 结构 


生成 对 抗 式 网 络 作为 一 种 基于 统计 学 的 新 型 深度 学 习 技术 ， 通 过 模型 学 习 来 估 测 其 潜在 分 布 并 生成 同 分 布 的 新 样本 ， 被 广泛 应 用 于 图 像 和 视觉 、 语 音 与 语言 、 信 息 安 全 等 领域 ， 如 今 许 多 研究 者 试图 将 
其 与 强化 学 习 结合 进行 进一步 的 研究 。 


作为 深度 学 习 的 重要 理论 基础 ， 未 来 统计 学 还 有 非常 大 的 发 展 空间 。 因 为 深度 学 习 模 型 具有 较 好 的 非 线 性 函数 表示 能 力 ， 根 据 神 经 网 络 的 通用 近似 理论 (universal approximation theory) 可 知 ， 对 
于 任意 的 非 线性 函数 一 定 可 以 找到 一 个 深度 学 习 网 络 来 对 其 进行 表示 ， 但 是 “可 表示 ”并 不 代表 “可 学 习 ”， 因 此 需要 进一步 了 解 深度 学 习 的 样本 复杂 度 ， 即 需要 多 少 训 练 样本 才能 得 到 一 个 足够 好 的 深度 
学 习 模型 。 这 些 问题 都 有 待 于 从 理论 层面 进行 突破 ， 统 计 学 对 深度 学 习 的 进一步 发 展 有 着 十 分 重要 的 意义 。 


13 ”本 书 涉及 的 深度 学 习 框 染 


随 着 深度 学 习 技 术 的 不 断 发 展 ， 越 来 越 多 的 深度 学 习 框架 得 到 开发 。 目 前 ， 最 受 研究 人 员 青 睐 的 深度 学 习 框 加 有 TensorFlow、Caffe、Torch 和 MXNet。TensorFlow 框 架 作 为 一 个 用 于 机 器 智能 的 开源 
软件 库 ， 以 其 高 度 的 灵活 性 、 强 大 的 可 移植 性 等 特点 而 成 为 目前 深度 学 习 的 主流 框架 之 一 ; 而 对 于 Caffe， 研 究 者 可 以 按照 该 框架 定义 各 种 各 样 的 卷 积 神经 网 络 框架 ， 该 框架 以 表达 方便 、 速 度 快 、 组 件 模块 
化 等 优势 同样 成 为 当今 常用 的 深度 学 习 网 络 框架 ; Torch 是 一 个 广泛 支持 机 器 学 习 算法 的 科学 计算 框架 ， 其 使 用 简单 快速 的 脚本 语言 LuaJIT 以 及 底层 的 C/CUDA 进 行 实现 ， 因 此 以 易于 使 用 且 高 效 的 特点 而 成 
为 当下 流行 的 深度 学 习 框架 ;MXNet 是 一 个 以 高 效 和 灵活 为 目的 设计 的 开源 深度 学 习 框架 ， 支 持 命令 式 编 程 和 声明 式 编程 。 这 四 种 框架 以 各 自 的 优势 特点 而 受到 广大 研究 者 的 认可 ， 在 本 书 第 2 ~ 5 章 将 会 就 
这 四 种 框架 的 理论 内 容 、 具 体 搭建 过 程 (包括 涉及 的 代码 描述 ) 以 及 应 用 实例 进行 详细 的 介绍 与 分 析 。 


14 ”优化 深度 学 习 的 万 法 
目前 ， 深 度 学 习 在 多 种 目标 分 类 和 识别 任务 中 取得 优 于 传统 算法 的 结果 ， 并 产生 大 量 优秀 的 模型 ， 使 用 迁移 学 习 方 法 将 优秀 的 模型 应 用 在 其 他 任务 中 ， 可 以 达到 在 减少 深度 学 习 训练 时 间 的 前 提 下 ， 提 


升 分 类 任务 性 能 ， 同 时 降低 对 训练 集 规模 的 依赖 ， 关 于 迁移 学 习 及 其 实例 分 析 将 在 第 6 章 进行 详细 介绍 。 


除 此 之 外 ， 随 着 深度 学 习 模型 中 网 络 层 数 的 加 深 、 参 数 的 增多 、 计 算 量 的 加 大 ， 计 算 速 度 慢 、 资 源 消耗 多 的 问题 逐渐 成 为 不 可 忽视 的 挑战 ， 以 保证 深度 学 习 训 练 精度 的 同时 加 快 训练 速度 为 目的 的 并 行 
计算 与 交叉 验证 运用 而 生 ， 这 两 种 方法 的 详细 介绍 以 及 实例 分 析 将 在 第 7 章 进行 。 


15 ”深度 学 习 展望 


随 着 硬件 计算 能 力 的 提升 以 及 大 规模 数据 集 的 出 现 ， 深 度 学 习 已 经 成 为 机 器 学 习 中 一 个 重要 的 领域 ， 下 面 对 深 度 学 习 的 一 些 模 型 进行 介绍 。 


卷 积 神经 网 络 (Convolutional Neural Network, CNN) 是 一 类 适用 于 处 理 图 像 数 据 的 多 层 神 经 网 络 。CNN 从 生物 学 上 的 视觉 皮层 得 到 启发 : 视觉 皮层 存在 微小 区 域 的 细胞 对 于 特定 区 域 的 视野 十 分 
敏感 ， 这 就 对 应 着 CNN 中 的 局 部 感知 区 域 。 在 CNN 中 ， 图 像 中 的 局 部 感知 区 域 被 当 作 层 次 结构 中 的 底层 输入 数据 ， 信 息 通过 前 向 传播 经 过 网 络 中 的 各 个 层 ， 每 一 层 都 由 过 滤器 构成 ， 以 便 能 够 获得 观测 数据 
的 一 些 显著 特征 ， 局 部 感知 区 域 能 够 获得 一 些 基础 的 特征 ， 还 能 提供 一 定 程度 对 位 移 、 拉 伸 和 旋转 的 相对 不 变性 。CNN 通 过 结合 局 部 感知 区 域 、 共 享 权重 、 空 间或 者 时 间 上 的 降 采 样 来 充分 利用 数据 本 身 包 
含 的 局 部 性 等 特征 ， 优 化 网 络 结构 ; 通过 挖掘 数据 空间 上 的 相关 性 ， 来 减少 网 络 中 可 训练 参数 的 数量 ， 以 达到 改进 反 向 传播 算法 效率 。 


长 短期 记忆 (Long Short-Term Memory, LSTM) 网 络 主要 适用 于 处 理 序列 数据 。LSTM 网 络 是 一 种 特殊 的 RNN (循环 神经 网 络 ) ， 但 网 络 本 质 与 RNN 是 一 样 的 。 在 传统 的 神经 网 络 模型 中 ， 网 络 的 
传输 是 从 输入 层 到 隐藏 层 再 到 输出 层 ， 层 与 层 之 间 是 全 连接 的 ， 每 层 之 间 的 节点 是 无 连接 的 。 这 其 中 存在 一 定 的 问题 ， 即 传统 的 神经 网 络 对 于 处 理 时 序 问题 无 能 为 力 。LSTM 网 络 可 以 解决 长 时 期 依赖 的 问 
题 ， 主 要 是 因为 LSTM 网 络 有 一 个 处 理 器 ， 其 中 放置 了 “三 房 门 ”， 分 别称 为 输入 门 、 遗 忘 门 和 输出 门 。 一 个 信息 进入 LSTM 网 络 当中 ， 可 以 根据 规则 来 判断 是 否 有 用 ， 只 有 符合 算法 认证 的 信息 才 会 留 下 ， 
不 符合 的 信息 则 通过 遗志 门 被 “遗忘 ”。 所 以 可 以 很 好 地 处 理 序列 数据 。 


受 限 玻 耳 效 曼 机 (RBM) 是 一 种 用 随机 神经 网 络 来 解释 的 概率 图 模型 。RBM 适 用 于 处 理 语音 、 文 本 类 数据 。 当 使 用 RBM 建 立 语音 信号 模型 时 ， 该 模型 使 用 对 比 散 度 (CD) 算法 进行 有 效 训练 ， 学 习 与 
识别 任务 关联 性 更 高 的 特征 来 更 好 地 得 到 信号 的 值 。 在 文档 分 类 问题 中 ， 直 接 将 不 规范 的 文档 内 容 作为 输入 会 产生 过 高 的 输入 数据 维 数 ， 而 无 法 对 其 进行 处 理 ， 因 此 有 必要 对 文档 进行 预 处 理 ， 选 择 词组 出 
现 的 频率 作为 特征 项 以 提取 能 够 表示 其 本 质 特 征 的 数据 ， 使 用 RBM 可 从 原始 的 高 维 输入 特征 中 提取 可 高 度 区 分 的 低 维 特征 ， 然 后 将 其 作为 支持 向 量 机 的 输入 进行 回归 分 析 ， 从 而 实现 对 文档 的 分 类 。 


生成 对 抗 式 网 络 (GAN) 适用 于 处 理 图 像 数据 ， 估 计 样 本 数据 的 分 布 ， 解 决 图 片 生成 问题 。GAN 包 含 一 个 生成 模型 (Generative Model) G 和 一 个 判别 模型 (Discriminative Model) D， 生 成 模型 G 
捕捉 样本 数据 的 分 布 ， 即 生成 图 片 ， 判别 模型 D 是 一 个 二 分 类 器 ， 判 别 图 片 是 真实 数据 还 是 生成 的 。 在 训练 过 程 中 ， 首 先 固定 一 方 ， 再 更 新 另 一 个 模型 的 参数 ， 以 此 交 蔡 和 迭代， 直至 生成 模型 与 判别 模型 无 
法 提高 自己 ， 即 判别 模型 无 法 判断 一 张 图 片 是 生成 的 还 是 真实 的 。 模 型 的 优化 过 程 是 一 个 二 元 极 小 极 大 博弈 问题 ， 在 G 和 D 的 任意 函数 空间 中 ， 存 在 一 个 唯一 的 解 ，G 恢 复 训 练 数据 分 布 ，D 在 任何 地 方 都 等 
于 0.5。 该 网 络 可 以 为 模拟 型 强化 学 习 做 好 理论 准备 ， 在 缺乏 数据 的 情况 下 ， 可 以 通过 生成 模型 来 补足 。 


深度 学 习 算 法 在 大 规模 数据 集 下 的 应 用 取得 突破 性 进展 ， 但 仍 有 以 下 问题 值得 进一步 研究 。 


1) 无 标记 数据 的 特征 学 习 。 当 前 ， 标 记 数 据 的 特征 学 习 占 据 主 导 地 位 ， 但 是 对 于 标记 数据 来 说 ， 一 个 相当 困难 的 地 方 在 于 将 现实 世界 的 海量 无 标记 数据 逐一 添加 人 工 标签 ， 是 很 费时 费力 且 不 现实 的 。 
所 以 ， 随 着 科学 研究 的 发 展 ， 无 标记 数据 的 特征 学 习 以 及 将 无 标记 数据 进行 自动 添加 标签 的 技术 会 成 为 研究 主流 。 


2) 模型 规模 与 训练 速度 、 训 练 精度 之 间 的 权衡 。 一 般 地 ， 在 相同 数据 集 下 ， 模 型 规模 越 大 ， 则 训练 精度 越 高 ， 训 | 练 速度 越 慢 。 对 于 模型 优化 ， 诸 如 模型 规模 调整 、 超 参数 设置 、 训 练 时 调试 等 ， 其 训练 
时 间 会 严重 影响 其 效率 。 所 以 ， 如 何在 保证 一 定 的 训练 精度 的 前 提 下 提高 训练 速度 是 很 有 必要 的 一 个 研究 课题 。 


3) 大 规模 数据 集 的 依赖 性 。 深 度 学 习 最 新 的 研究 成 果 都 依赖 于 大 规模 数据 集 和 强大 的 计算 能 力 ， 如 果 没 有 大 量 真实 的 数据 集 ， 没 有 相关 的 工程 专业 知识 ， 探 索 新 算法 将 会 变 得 异常 困难 。 


4) 超 参 数 的 合理 取 值 。 深 度 神 经 网 络 以 及 相关 深度 学 习 模 型 应 用 需要 足够 的 能 力 和 经 验 来 合理 地 选择 超 参 数 的 取 值 ， 如 学 习 速 率 、 正 则 项 的 强度 以 及 层 数 和 每 层 的 单元 个 数 等 ， 一 个 超 参数 的 合理 值 取 
决 于 其 他 超 参 数 的 取 值 ， 并 且 深 度 神经 网 络 中 超 参数 的 微调 代价 很 大 ， 所 以 有 必要 在 超 参数 这 个 重要 领域 内 做 更 进一步 的 研究 。 


在 许多 领域 深度 学 习 都 表现 出 巨大 的 潜力 ， 但 深度 学 习作 为 机 器 学 习 的 一 个 新 领域 现在 仍 处 于 发 展 阶段 ， 仍 然 有 很 多 工作 需要 开展 ， 很 多 问题 需要 解决 ， 尽 管 深度 学 习 的 研究 还 人 存在 许多 问题 ， 但 是 现 
有 的 成 功 和 发 展 表明 深度 学 习 是 一 个 值得 研究 的 领域 。 


现 
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第 2 章 TensorFlow 深 度 学 习 框 架构 建 方法 与 图 像 分 类 的 


Google 公 司 不 仅 是 大 数据 和 云 计算 的 领导 者 ， 在 机 器 学 习 和 深度 学 习 领 域 也 有 很 好 的 实践 和 积 窜 ,其 内 部 使 用 的 深度 学 习 框架 TensorFlow 使 深度 学 习 爱 好 者 的 学 习 门 槛 越 来 越 低 。TensorFlow 作 为 一 
个 用 于 机 器 智能 的 开源 软件 库 ， 是 目前 深度 学 习 的 主流 框架 之 一 ， 广 泛 应 用 于 学 术 界 与 工业 界 。TensorFlow 自 开源 至 今 ， 相 继 推出 了 分 布 式 版 本 、 服 务 器 框架 、 可 视 化 Tensorboard 以 及 不 胜 枚 举 的 模型 在 
该 框架 下 的 实现 。 


本 章 将 对 TensorFlow 做 详细 的 介绍 ， 主 要 包括 TensorFlow 运 作 原 理 、 模 型 构建 和 框架 安装 。 之 后 ， 介 绍 该 框架 下 具体 网 络 的 实现 以 及 详细 代码 的 解读 。 


2.1 TensorFlow 概 术 


2015 年 11 月 9 日 ，Google 工 程 师 发 布 人 工 智 能 系统 TensorFlow 并 宣布 开源 ， 将 此 系统 的 参数 公布 给 业界 工程 师 、 学 者 和 具有 编程 能 力 的 技术 人 员 。Google 工 程 师 认为 机 器 学 习 是 未 来 新 产品 和 新 技术 
的 一 个 关键 部 分 ， 这 个 领域 的 研究 是 全 球 性 、 高 速度 的 ， 但 缺少 一 个 通用 型 的 工具 。 因 此 ，TensorFlow 应 运 而 生 。 


2.1.1 TensorFlow 的 特点 


TensorFlow 是 Google 基 于 DistBelief 研 发 的 第 二 代 人 工 智能 学 习 系统 ， 其 命名 来 源 于 自身 的 运行 原理 。TensorFlow 是 一 个 采用 数据 流 图 (Data Flow Graph) 、 用 于 数值 计算 的 开源 软件 库 。 数 据 流 
图 用 节点 (Node) 和 线 (Edge) 的 有 向 图 来 描述 数学 计算 。 节 点 一 般 用 来 表示 施加 的 数学 操作 ， 但 也 可 以 表示 数据 输入 (Feed In) 的 起 点 /输出 (Push Out) 的 终点 ， 或 者 是 读 取 / 写 入 持久 变量 
(Persistent Variable) 的 终点 。 线 表示 节点 之 间 的 输入 /输出 关系 。 这 些 数据 线 可 以 传输 大 小 可 动态 调整 的 多 维 数据 数组 ， 即 张 量 (Tensor) 。 张 量 从 图 中 流 过 的 直观 过 程 是 这 个 工具 取 名 为 TensorFlow 
的 原因 。 一 旦 输入 端的 所 有 张 量 准备 好 ， 节 点 将 被 分 配 到 各 种 计算 设备 以 完成 异步 操作 ， 并 行 地 执行 运算 。 它 灵活 的 架构 让 用 户 可 以 在 多 种 平台 上 展开 计算 ， 如 人 台式 计算 机 中 的 一 个 或 多 个 CPU (或 
GPU) 、 服 务 器 、 移 动 设备 等 。TensorFlow 最 初 用 于 机 器 学 习 和 深度 神经 网 络 方面 的 研究 ， 由 于 系统 的 通用 性 使 其 也 可 广泛 用 于 其 他 计算 领域 。 


TensorFlow 的 特点 如 下 : 


1) 高 度 的 灵活 性 : TensorFlow 不 是 一 个 严格 的 神经 网 络 库 。 只 要 用 户 可 以 将 计算 表示 为 一 个 数据 流 图 ， 就 可 以 使 用 TensorFlow 来 构建 图 ， 描 写 驱动 计算 的 内 部 循环 。TensorFlow 提 供 了 有 用 的 工具 
来 帮助 用 户 组 装 子 图 (常用 于 神经 网 络 ) ， 用 户 也 可 以 在 TensorFlow 的 基础 上 编写 自 定义 的 上 层 库 。 定 义 顺手 好 用 的 新 复合 操作 与 写 一 个 Python 国 数 一 样 容 易 ， 而 且 也 不 用 担心 性 能 损耗 。 


2) 真正 的 可 移植 性 : TensorFlow 既 可 以 在 CPU 和 GPU 上 运行 ， 又 可 以 运行 于 台式 机 、 服 务 器 、 笔 记 本 电脑 等 。TensorFlow 还 可 以 将 训练 好 的 模型 作为 产品 的 一 部 分 用 于 手机 App。TensorFlow 同 样 
可 以 将 模型 作为 云端 服务 运行 在 自己 的 服务 器 上 ， 或 者 运行 于 Docker 容 器 。 


3) 科研 与 产品 无 颖 对 接 : Google 科 学 家 利用 TensorFlow 尝 试 新 的 算法 ， 其 产品 团队 则 用 TensorFlow 来 训练 和 使 用 计算 模型 ， 并 直接 提供 给 在 线 用 户 。 应 用 型 研究 者 使 用 TensorFlow 将 想法 迅速 运用 


资源 。 


(2) 数据 模型 


张 量 (Tensor) 是 TensorFlow 中 一 个 非常 重要 的 概念 


是 如 何 得 到 | 数据 的 计算 过 程 ， 而 不 是 真正 保存 这 些 数据 。 


量 (Scalar) ， 一 维 张 量 表示 为 向 量 (Vector) ， 当 维 数 n 超 过 2 时 ， 张 量 就 可 以 理解 为 n 维 数组 ， 但 在 TensorFlow 中 张 量 并 不 是 以 数 的 形式 实现 的 ， 只 是 对 TensorFlow 中 运算 结果 的 引用 。 在 张 量 中 保存 的 
计算 结果 进行 引用 ， 当 一 个 计算 包 


(3) 运行 模型 


释放 的 问题 


同时 也 解决 了 忘记 调用 会 话 天 闭 函 数 而 产生 的 资源 泄漏 问题 
会 话 的 函数 ， 使 用 此 函数 会 自动 将 生成 的 会 话 注册 为 默认 会 话 


函数 可 能 不 会 被 执行 而 导致 资源 的 泄漏 。 另 一 种 模式 是 利用 Python 上 下 文 管理 器 的 机 制 ， 只 要 将 所 有 的 计算 放 在 with 中 即 可 。 上 下 文 管理 器 退出 时 会 自动 释放 所 有 资源 ， 


在 TensorFlow 程 序 中 ， 系 统 会 维护 一 个 默认 的 计算 图 


是 计算 图 的 重要 功能 之 一 。 在 一 个 计算 图 中 ， 可 以 通过 集合 (Collection) 来 管理 不 同类 别 的 计算 资源 ， 比 如 通过 tf.add_to_collection 函 数 可 以 将 资源 加 入 集合 


一 个 张 量 中 主要 保存 的 是 其 名 字 (Name) 、 维 度 (Shape) 和 类 型 (Dtype) 。 例 如 ， 张 量 名 字 作 为 张 量 的 唯一 标识 符 ， 描 述 了 张 量 是 如 何 计算 出 来 的 。 张 量 维度 描述 的 是 张 量 的 维度 信息 ， 比 如 维度 

为 零 ， 则 张 量 就 可 以 表示 为 标量 。 每 一 个 张 量 都 有 一 个 唯一 的 张 量 类 型 ， 在 对 张 量 进行 运算 前 ，TensorFlow 首 先 会 对 张 量 进行 类 型 检查 ， 当 发 现 类 型 不 匹配 时 就 会 保存 。 对 于 张 量 的 使 用 ， 其 可 以 作为 中 间 
民 多 中 间 结 果 时 ， 使 用 张 量 可 大 大 提高 代码 的 可 读 性 ; 同样 ， 在 计算 图 构造 完成 之 后 ， 也 可 以 用 张 量 来 获得 结果 

会 话 (Session) 是 拥有 并 管理 TensorFlow 程 序 


TensorFlow 中 使 用 会 话 的 模式 一 般 有 两 种 : 一 种 模式 需要 明确 调用 会 话 生成 函数 和 会 话 关 闭 函 数 ， 当 所 有 计算 完成 之 后 ， 需 要 明确 调用 会 话 天 闭 函 数 以 释放 资源 。 然 而 ， 


Ali ZX. 
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基于 梯度 的 机 器 学 习 算法 受益 
据 ，TensorFlow 将 自动 为 用 户 计 算 相关 的 微分 导数 。 


于 产品 中 ， 其 也 可 以 让 学 术 性 研究 者 更 直接 地 分 享 代码 ， 从 而 提高 科研 产 出 率 。 
4) 目 动 求 


于 TensorFlow 自 动 求 微分 的 能 力 。 用 户 只 需 


6) 性 能 最 


BEHx 


等 给 


需要 定义 预测 模型 的 结构 ， 将 这 个 结构 和 目标 函数 (Objective Function) 结合 在 一 起 并 添加 数 
5) 多 语言 支持 : TensorFlow 有 一 个 合理 的 C+ + 使 用 界面 和 一 个 易 用 的 Python 使 用 界面 来 构建 和 执行 指定 的 “图 ”。 用 户 可 以 直接 写 Python/C+ + 程序 ， 也 可 以 用 交互 式 的 ijPython 界 面 来 使 用 
TensorFlow 尝 试 新 想法 ， 它 可 以 帮助 用 户 将 笔记 、 代 码 、 可 视 化 等 有 条 理 地 归 置 好 。 此 外 TensorFlow 还 支持 用 户 创造 自己 喜欢 的 语言 界面 ， 比 如 Go、Java、Lua、JavaScript 或 者 是 R 语 言 。 
优化 : 由 于 TensorFlow 对 线程 、 队 列 、 异 步 操 作 


2.1.2 TensorFlow 中 的 模型 


(1) 计算 模型 


予 了 最 佳 支持 ， 使 其 计算 潜能 得 以 有 效 发 挥 。TensorFlow 可 以 将 硬件 的 计算 潜能 全 部 发 挥 出 来 ， 可 充分 利用 多 CPU 和 多 GPU。 
2.1.1 节 介绍 了 TensorFlow 的 诞生 及 特点 ， 这 一 小 节 主 要 说 明 TensorFlow 的 三 种 主要 模型 


: 计算 模型 、 数 据 模 型 和 运行 


运行 模型 。 


计算 图 (Graph) 是 TensorFlow 中 一 个 最 基本 的 概念 ， 是 TensorFlow 的 计算 模型 。TensorFlow 中 的 所 有 计算 都 会 被 转化 为 计算 图 上 的 节点 

计算 都 是 计算 图 上 的 一 个 节点 ， 而 节点 之 间 的 边 描述 了 计算 之 间 的 依赖 关系 。 例 如 ， 通 常 在 构建 阶段 创建 一 个 计算 图 来 表示 和 训练 神经 网 络 ， 然 后 在 执行 阶段 反复 执行 图 中 的 训练 操作 ， 使 得 参数 不 断 优 
化 。 在 图 的 构建 阶段 ， 本 质 是 各 种 操作 的 拼接 组 合 ， 操 作 之 间 流 通 的 张 量 由 源 操 作 产 生 ， 只 有 输出 张 量 ， 没 有 输入 张 量 。TensorFlow 支 持 通过 tf.Graph0) 函 数 来 生成 新 的 计算 图 。 

图 2-1 中 的 每 一 个 节点 都 是 一 个 条 i 

Add 运 算是 依赖 于 运算 a 和 运算 b 的 。 


NNT 


AN 


可 以 把 计算 图 看 作 一 种 有 向 图 ，TensorFlow 中 的 每 一 人 
运算 ,每 一 条 边 都 代表 了 计算 之 间 的 依赖 ， 箭 头 方向 代表 依赖 关系 。 例 如 ， 运 算 a 和 运算 b 不 依赖 任何 关系 ， 而 有 一 条 由 a 指向 Add 的 边 和 


条 由 b 指 向 Add 的 边 ， 表 示 








图 2-1 ”可视化 向 量 相 加 计算 图 


通过 tf.get_default_graph0 函 数 可 以 获取 当前 默认 的 计算 图 ， 不 同 的 计算 图 上 的 张 量 和 运算 不 


会 共享 。 有 效 地 整理 TensorFlow 中 的 资源 同样 也 


然后 通过 tf.get_collection 获 取 集 合 中 的 


合 1 


是 TensorFlow 的 数据 模型 。 在 TensorFlow 程 序 中 ， 所 有 数据 都 可 以 通过 张 量 的 形式 来 表示 。 张 量 的 最 基本 属性 是 维度 ， 其 中 零 维 张 量 表示 为 标 
类 


运行 


时 所 有 资源 的 概念 


是 TensorFlow 的 运行 


运行 模型 


当 所 有 计算 完成 之 后 ， 需 要 关闭 会 话 来 帮助 系统 回收 计算 资源 ， 


否则 就 可 能 产生 资源 泄漏 的 问题 。 
当 程 序 因 为 异常 退出 时 ， 会 话 天 闭 
在 交互 式 环境 下 ， 通 过 设置 默认 会 话 的 方式 获取 张 量 的 取 值 更 加 方便 ， 所 以 TensorFlow 提 供 了 一 种 在 交互 式 环境 下 直接 构建 默认 


这 样 既 解 决 了 因为 异常 退出 时 资源 


2.2 TensorFlowTEZEZzz& 


TensorFlow 要 求 的 安装 环境 为 Ubuntu 12+ ，CPU 不 低 于 4 代 i3 处 理 器 ， 内 存 不 低 于 4GB， 原 因 在 于 为 虚拟 机 分 配 的 内 存在 虚拟 机 启动 之 后 会 以 1:1 的 比例 从 物理 内 存 中 划 走 。 下 面 的 步骤 是 在 Ubuntu 
12+ 上 的 TensorFlow 安 装 过 程 ，TensorFlow 提 供 了 许多 安装 方法 ， 如 使 用 pip、Docker、Virtualenv、Anaconda 或 源码 编译 的 方法 ， 下 面 针对 Anaconda 作 详细 介绍 。 


2.2.1 基于 Anaconda 的 安装 

Anaconda 是 一 个 集成 许多 第 三 方 科学 计算 库 的 Python 科 学 计算 环境 ， 它 使 用 conda 作 为 自己 的 包 管理 工具 ， 同 时 具有 自己 的 计算 环境 ， 类 似 于 Virtualenv。 与 Virtualenv 一 样 ，conda 将 不 同 Python 
工程 需要 的 依赖 包 存 储 在 不 同 地 方 。TensorFlow 上 安装 的 Anaconda 不 会 对 之 前 安装 的 Python 包 进行 覆盖 。 步 又 如 下 : 

1) Anaconda 下 载 地址 为 https://www.continuum.io/downloads， 本 实例 选择 Python 2.7。 如 图 2-2 所 示 。 

2) 建立 一 个 名 为 TensorFlow 的 conda 计 算 环境 ， 见 图 2-3 (针对 Python 不 同 版 本 ， 建 立 不 同 环境 ) : 

- Python 2.7: conda create-n TensorFlow python=2.7 


: Python 3.6: conda create-n TensorFlow python=3.6 


sa Windows € maos A, Linux 





Anaconda 4.4.0 For Linux Installer 





Python 3.6 version ' Python 2.7 version ` 
ky DOWNLOAD (Vj. DOWNLOAD 
64-Bit (Power8) Installer (290 MB) 64-Bit (Power8) Installer (276 MB) 
32-Bit Installer (428 MB) 32-Bit Installer (415 MB) 


` How to get Python 3.5 or other Python versions 
How Lo Install ANACONDA 


图 2-2 F #Anaconda 


mwa: conda create -n tensorflow python=2 .7 


图 2-3 ”建立 一 个 名 为 TensorFlow 的 conda 计 算 环境 
3) 激活 环境 ， 用 conda 安 装 TensorFlow。 
4) 安装 成 功 后 ， 每 次 使 用 TensorFlow 的 时 候 需 要 激活 conda 环 境 。 


5) 激活 TensorFlow 环 境 ， 然 后 使 用 其 中 的 pip 命 令 安装 TensorFlow ( 见 图 2-4) : 


source activate TensorFlow 


ww YAa : ^ source activate tensorflow 
(tensorfloW) Ts :-S ll 


图 2-4 ”激活 TensorFlow 环 境 
针对 不 同 的 Python 版 本 以 及 用 户 是 否 有 GPU， 下 面 提 供 了 不 同 的 安装 命令 : 
- 在 Python 2.7、 仅 有 CPU 下 安装 TensorFlow: 


(TensorFlow) pip install--ignore-installed--upgrade 
https://storage.googleapis.com/TensorFlow/linux/cpu/TensorFlow-1.1.0-cp27-none-linux x86 64.whl 











: 在 Python 2.7, GPU® Jf] F XE TensorFlow (要 求 CUDA 工 具 包 7.5 和 CuDNNv4) : 


(TensorFlow) pip install --ignore-installed --upgrade 
https://storage.googleapis.com/TensorFlow/linux/gpu/TensorFlow-1.1.0rc0-cp27-none-linux x86 64.whl 





: 在 Python 3.0 以 上 、 仅 有 CPU 下 安装 TensorFlow: 


(TensorFlow) pip install --ignore-installed --upgrade 
https://storage.googleapis.com/TensorFlow/linux/cpu/TensorFlow-1.1.0rc0-cp34-cp34m-linux x86 64.whl 





- 在 Python 3.0 以 上 、GPU 可 用 下 安装 TensorFlow (要 求 CUDA 工 具 包 7.5 和 CuDNNv4) : 


(TensorFlow) pip install --ignore-installed --upgrade 
https://storage.googleapis.com/TensorFlow/linux/gpu/TensorFlow-1.1.0rc0-cp34-cp34m-linux x86 64.whl 





通过 以 上 步骤 ，TensorFlow 就 安装 成 功 了 。 当 不 使 用 TensorFlow 的 时 候 关 闭环 境 : 


(TensorFlow) source deactivate 


2.2.2 测试 TensorFlow 


以 下 有 两 个 测试 命令 Test a 和 Test b， 打 开 一 个 Python 终端 ， 输 入 命令 ， 可 以 测试 TensorFlow 是 否 安装 成 功 ， 见 图 2-5 和 图 2-6。 
Test a: 








>>> import TensorFlow as tf 
>>> hello = tf.constant('Hello, TensorFlow!') 
>>> sess = tf.Session() 

>>> print sess.run (hello) 

Hello, TensorFlow! 



































Test b: 

>>> a = tf.constant (10) 
>>> b = tf.constant (32) 
>>> print sess.run (a+b) 
42 


>>> 


Type "help", "copyright", "credits" or "License" for more information. 

Anaconda is brought to you by Continuum Analytics. 

Please check out: http://continuum.io/thanks and https://anaconda.org 

>>> import tensorflow as tf 

>>> hello = tf.constant('Hello,Tensorflow!') 

>>> sess = tf.Session() 

2017-08-07 16:34:07.308116: W tensorflow/core/platform/cpu feature quard.cc:45] 
The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are 
available on your machine and could speed up CPU computations. 

2017-08-07 16:34:07.308172: W tensorflow/core/platform/cpu feature guard.cc:45] 

The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are 
available on your machine and could speed up CPU computations. 

2017-08-07 16:34:07.308190: W tensorflow/core/platform/cpu feature guard.cc:45] 

The TensorFlow library wasn't compiled to use AVX instructions, but these are av 
ailable on your machine and could speed up CPU computations. 

2017-08-07 16:34:07.308208: W tensorflow/core/platform/cpu feature guard.cc:45] 
The TensorFlow library wasn't compiled to use AVX2 instructions, but these are a 

vailable on your machine and could speed up CPU computations. 

2017-08-07 16:34:07.308225: W tensorflow/core/platform/cpu feature guard.cc:45] 

The TensorFlow library wasn't compiled to use FMA instructions, but these are av 

ailable on your machine and could speed up CPU computations. 

>>> print sess.run(hello) 

Hello,TensorfLlow! 

>>> 


图 2-5 运行 TensofFlow 测 试 程序 a 


>>> hello -tf.constant('Hello,Tensorflow!') 

>>> sess = tf.Session() 

2017-08-07 16:35:46.825760: W tensorflow/core/platform/cpu feature quard.cc:45] 
The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are 
avallable on your machine and could speed up CPU computations. 

2017-08-07 16:35:46.825780: W tensorflow/core/platform/cpu feature quard.cc:45] 

The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are 
available on your machine and could speed up CPU computations. 

2017-08-07 16:35:46.825785: W tensorflow/core/platform/cpu feature guard.cc:45] 
The TensorFlow library wasn't compiled to use AVX instructions, but these are av 
ailable on your machine and could speed up CPU computations. 

2017-08-07 16:35:46.825789: W tensorflow/core/platform/cpu feature guard.cc:45] 
The TensorFlow library wasn't compiled to use AVX2 instructions, but these are a 
vailable on your machine and could speed up CPU computations. 

2017-08-07 16:35:46.825793: W tensorflow/core/platform/cpu feature guard.cc:45] 
The TensorFlow library wasn't compiled to use FMA instructions, but these are av 
ailable on your machine and could speed up CPU computations. 

>>> print sess.run(hello) 

Hello,Tensorf Low! 

>>> a = tf.constant(10) 

>>> b = tf.constant(32) 

>>> print sess.run(a + b) 

42 


>>> KE 


图 2-6 ”运行 TensorFlow 测 试 程序 b 


2.3 ”基于 TensorFlow 框 架 的 图 像 分 类 实现 (ResNet-34) 


本 节 将 以 深度 残 差 网 络 (ResNet) 为 例 ， 以 图 像 分 类 作为 应 用 背景 ， 对 TensorFlow 框 架 下 深度 卷 积 神经 网 络 的 构建 、 训 练 、 测 试 等 进行 详细 解读 ， 并 介绍 ResNet 网 络 结构 及 特性 ， 分 析 实 验 结果 。 


2.3.1 ”应 用 背景 


计算 机 视觉 识别 是 人 工 智能 的 经 典 领域 ， 一 直 备 受 学 术 界 和 工业 界 的 广泛 关注 。 本 示例 所 介绍 的 网 络 成 名 于 2015 年 的 ImageNet 大 规模 视觉 识别 挑战 赛 。ImageNet 大 规模 视觉 识别 挑战 赛 (The 
ImageNet Large Scale Visual Recognition Challenge, ILSVRC) 被 誉 为 计算 机 视觉 乃 至 整个 人 工 智能 发 展 史上 的 里 程 碑 式 的 赛事 ， 成 立 于 2010 年 。ILSVRC 不 但 是 计算 机 视觉 领域 发 展 的 重要 推动 者 ， 也 
是 深度 学 习 热潮 的 关键 驱动 力 之 一 。 从 2010 年 起 ，ILSVRC 每 年 都 会 成 立 一 个 相应 的 研讨 会 ， 研 讨 会 的 目的 是 介绍 当年 计算 机 视觉 相关 挑战 的 方法 和 竞赛 结果 ， 并 且 邀 请 最 成 功 的 和 创新 的 参赛 者 出 席 。 大 赛 


的 主要 挑战 包括 图 像 分 类 、 目 标定 位 、 图 像 中 的 目标 侦 测 、 视 频 中 的 目标 侦 测 、 场 景 分 类 、 场 景 解析 。 


ResNet (Residual Neural Network) 是 由 微软 研究 院 的 何 凯 明 团队 提出 的 ， 中 文 称 为 残 差 网 络 。ResNet 设 计 的 最 根本 动机 就 是 解决 神经 网 络 的 退化 问题 ， 即 当 神 经 网 络 层次 更 深 时 ， 训 练 错误 率 反 而 
更 高 了 ， 针 对 此 问题 ， 团 队 提 出 了 一 个 Residual 结 构 。 网 络 层 的 函数 被 重新 规划 为 每 层 输入 的 残 差 水 数 。 在 数理 统计 中 ， 残 差 的 概念 为 实际 观测 值 与 估计 值 ( 拟 合 值 ) 之 间 的 差 ， 如 果 回 归 模型 正确 的 话 ， 
可 以 将 残 差 看 作 误 差 的 观测 值 。 在 2015 年 的 ILSVRC 比 赛 中 ， 该 研究 团队 通过 使 用 Residual Units ( 残 差 单 元 ) 训练 了 152 层 ResNet 神 经 网 络 ， 在 对 Cifar-10 数 据 集 的 分 类 上 取得 了 第 一 名 ，Top-5 错 误 率 仅 
为 3.57%， 效 果 非 常 突出 。 同 时 该 网 络 也 在 COCO (Common Objects in Context) 目标 检测 数据 集 上 取得 了 优异 的 结果 ， 分 类 性 能 优异 ， 虽 然 网 络 层 数 达到 152 层 ， 比 VGG 网 络 要 深 8 倍 ， 但 是 相 比 于 
VGG 网 络 具有 更 低 的 复杂 度 ， 成 为 深度 学 习 领 域 具有 代表 性 的 分 类 模型 。 


本 实例 所 使 用 的 Cifar-10 数 据 集 由 60000 张 32x32 的 RGB 彩色 图 片 构成 ， 共 有 10 个 分 类 ， 包 括 飞 机 、 汽 车、 小 乌 、 猫 咪 、 廉 谭 、 小 狗 、 青 蛙 、 马 、 船 、 卡 车 ， 其 中 50000 张 是 训练 图 片 ，10000 张 是 测试 
图 片 。 而 在 Cifar-100 数 据 集中 ， 分 类 类 别 高 达 100， 相 对 于 Cifar-10 更 详尽 。Cifar-10 数 据 集 最 大 的 特点 在 于 将 识别 迁移 到 了 普 适 物体 ， 而 且 应 用 于 多 分 类 。Cifar-10 数 据 存 放 在 一 个 10000x3072 的 numpy 
数组 中 ， 单 位 是 uint8s， 其 中 3072 表 示人 存储 了 一 个 32x32 的 彩色 图 像 ， 前 1024 位 是 R 值 ， 中 间 1024 位 是 C 值 ， 后 1024 位 是 B 值 。 


2.3.2 ResNet 


深度 卷 积 神经 网 络 在 图 像 分 类 上 有 着 一 系列 重大 突破 ， 但 在 深度 学 习 发 展 历程 中 ， 当 开始 考虑 更 深层 的 网 络 的 收敛 问题 时 出 现 了 一 个 退化 的 问题 ， 即 在 不 断 加深 的 神经 网 络 中 会 出 现 准确 率先 有 一 个 上 
升 的 趋势 ， 然 后 达到 饱和 ， 关 再 增加 深度 则 会 导致 准确 率 下 降 。 由 于 在 训练 集 和 测试 集 上 都 出 现 误差 增 大 现象 ， 因 此 得 知 并 不 是 过 拟 合 造成 的 影响 。ResNet 通 过 跨 层 特 征 融合 使 得 其 网 络 特征 提取 能 力 增 
强 ， 网 络 性 能 随 着 网 络 的 加 深 而 逐渐 提高 。 研 究 团 队 在 可 接受 时 间 内 测试 更 深层 次 的 ResNet， 并 比较 多 种 深度 学 习 模型 后 ， 证 明 ResNet 较 其 他 模型 分 类 性 能 更 为 优秀 ， 并 且 能 够 通过 增加 相当 的 深度 来 提 


高 准确 率 。 


如 图 2-7 右 侧 所 示 就 是 ResNet。 与 卷 积 神经 网 络 不 同 的 是 ，ResNet 插 入 了 跨 层 连 接 ， 即 在 不 相 邻 网 络 层 之 间 进 行 连接 ， 如 图 2-7 右 侧 所 示 黑 色 的 箭头 会 跳 过 两 个 网 络 层 直 接 作为 男 一 个 输入 ， 轻 加 到 不 
相 邻 两 层 的 神经 网 络 层 ， 相 当 于 在 不 相 邻 两 层 的 网 络 层 之 间架 设 了 一 座高 架 桥 ， 形 成 一 个 ResNet 网 络 残 差 构 件 。 图 2-7 左 侧 描 述 的 是 ResNet 中 的 一 个 残 差 构件 ， 其 中 每 块 包括 两 组 组 合 网 络 层 ， 每 组 网 络 层 
由 一 层 批 次 正则 化 (Batch Norm) 层 、 一 层 ReLU 层 和 一 层 卷 积 层 组 成 ， 最 后 一 组 的 卷 积 层 输 出 与 原始 的 输入 进行 异 或 操作 ， 得 到 输出 。 当 维度 增加 时 ， 可 以 考虑 两 种 选择 : 1) 跨 层 连 接 仍然 使 用 自身 映 
射 ， 对 于 增加 的 维度 用 零 来 填补 空缺 ， 不 会 引入 额外 的 参数 ; 2) y=F(x{Whb+WsX 用 来 匹配 维度 。 对 于 前 一 层 输入 的 结果 x， 通 过 残 差 构造 块 函 数 FCO 会 输出 Ho : =F(Xx)+x。F(X)+x 在 网 络 中 是 通过 跨 层 连 
接 和 异 或 操作 实现 的 ， 跨 层 连接 可 以 跳 过 一 个 或 多 个 神经 网 络 层 。 


对 于 整个 网 络 的 训练 ， 依 然 可 以 使 用 随机 梯度 下 降 (Stochastic Gradient Descend, SGD) 算法 和 反 向 传播 (Back Propagation, BP) 算法 ， 但 是 在 卷 积 神经 网 络 中 ， 如 果 只 是 简单 地 增加 网 络 深度 
作为 恒 等 映 射 ， 则 会 导致 梯度 弥散 或 梯度 爆炸 的 结果 ， 从 而 造成 退化 问题 。 使 用 正则 化 初始 值 和 中 间 的 批 次 正则 化 层 可 以 训练 几 十 层 的 卷 积 神经 网 络 ， 在 很 大 程度 上 可 以 解决 这 一 问题 ， 因 此 退化 问题 说 明 
了 深度 网 络 并 不 能 依靠 简单 的 网 络 层 数 增加 来 提高 网 络 性 能 。 在 ResNet 重 构 中 ， 如 果 恒 等 映射 是 最 优 的 ， 构 造 块 可 能 会 简单 地 将 多 个 非 线性 层 的 权 值 副 近 于 零 ， 从 而 逼近 恒 等 映 射 。 如 果 优 化 冰 数 更 接近 于 
恒 等 映 射 ， 相 比 于 直接 学 习 一 个 新 的 函数 ，ResNet 能 够 更 容易 地 找 出 恒 等 映 射 有 关 的 扰动 ， 对 特征 的 敏感 性 更 强 。 对 于 ResNet 的 网 络 训练 相当 于 同时 对 多 个 卷 积 神经 网 络 进行 并 行 训 练 ， 从 而 相 较 于 传统 
卷 积 神经 网 络 其 有 更 高 的 效率 。 


ResNet 残 差 构 件 有 很 多 种 ， 甚 至 可 以 根据 项 目 要求 自 己 定 义 。 图 2-8 显 示 的 就 是 本 文 使 用 的 ResNet-34 对 应 的 残 差 构件 ， 该 结构 很 好 地 解决 了 退化 问题 。 残 差 构 件 由 两 个 卷 积 层 再 加 一 个 恒 等 映 射 组 
成 ， 卷 积 核 大 小 都 为 3x3， 因 此 残 差 构件 输入 与 输出 的 维度 大 小 也 都 是 一 样 的 ， 可 以 直接 进行 相 加 。 当 步 长 为 1 时 ，ResNet 中 的 输入 在 残 差 构件 中 进行 批 次 正则 化 、ReLU 激 活 、 卷 积 后， 填充 (padding) 
层 即 为 原始 的 输入 层 ; 当 步 长 为 2 时 ，ResNet 的 输入 再 进行 同样 的 操作 后 ， 还 会 进行 一 次 平均 池 化 ， 再 得 到 填充 层 ， 最 后 输出 层 的 输入 为 填充 层 的 输出 加 上 残 差 构 件 后 的 输出 。 
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图 2-7 ResNet 网 络 残 差 构 件 和 ResNet 网 络 结构 





图 2-8 ResNet-34 残 差 构件 


除了 ResNet-34 对 应 的 残 差 构件 ， 作 者 还 提出 了 ResNet-50/101/152 对 应 的 残 差 构件 ， 优 化 之 后 的 残 差 构 件 相当 于 对 于 相同 数量 的 层 减少 了 参数 量 ， 因 此 可 以 拓展 成 更 深 的 模型 ，50/101/152 层 
ResNet 比 34 层 ResNet 具 有 更 高 的 精确 度 ， 并 且 也 没有 发 现 退 化 问题 ， 因 此 可 以 通过 大 幅 增加 网 络 层 深 来 获取 显著 的 精确 增益 。 


2.3.3 ”ResNet 程 序 实现 


接 下 来 就 正式 进入 ResNet 的 实例 指导 ， 本 实例 通过 ResNet 来 解决 对 Cifar-10 数 据 集 的 分 类 。 
(1) 预 要 求 

在 运行 前 需要 预 安装 Pandas 库 、numpy 库 、OpenCV、TensorFlow (1.0.04) , 

(2) 文件 组 织 结构 


该 实例 文件 夹 中 的 文件 组 织 结构 如 图 2-9 所 示 。 其 中 cifar10 input.py 包 括 下 载 、 提 取 和 预 处 理 Cifar-10 图 像 的 函数 。resnet.py 定 义 了 ResNet 结 构 。cifar10 train.py 负 责 训练 和 验证 。cifar10 test.py 负 
责 测 试图 像 。hyper_ parameters.py 定 义 了 关于 训练 ResNet 网 络 结构 、 数 据 变 量 的 超 参数 。cifar10_main.py 为 程序 执行 的 起 始 文件 ， 包 括 执行 训练 和 测试 两 个 部 分 ， 可 以 通过 执行 此 文件 开始 程序 。 
cifar10_data 文 件 夹 中 存放 运行 程序 所 需 的 数据 集 ，logs test 文 件 夹 中 存放 验证 日 志 程序 ， 包 括 程 序 运 行 后 产生 的 训练 误差 、 训 练 损失 、 验 证 误差 、 验 证 损失 生成 的 test.csv 统 计 表 。testdata 文 件 夹 中 存放 


测试 图 像 。 








e 
resnet.py 


e e 


clfar10 main.py — hyper parameters.py 
logs test 
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cifarlO train.py 


e e 


— > 
cifarlO test.py cifarlO input.py 


testdata cifarlO data 





图 2-9 ”文件 组 织 结 构 


(3) 数据 集 


对 于 数据 集 来 说 ， 本 章 采 用 的 是 Cifar-10 数 据 集 ， 其 中 Cifar-10 数 据 集 包含 有 6 万 张 32x32 彩 色 图 像 ， 由 Alex Krizhevsky. Vinod Nair 和 Geoffrey Hinton 收 集 而 来 ， 包 含 50000 张 训练 图 片 、10000 张 
测试 图 片 ， 用 户 也 可 以 在 其 官方 网 站 (http://www.cs.toronto.edu/~kriz/cifar.html) 进行 下 载 。 其 中 ， 训 练 批 次 中 包含 来 自 每 个 类 的 5000 张 图 像 。 用 户 可 以 通过 本 节 的 程序 来 对 Cifar-10 数 据 集 进行 分 
类 ， 最 后 查看 其 训练 误差 与 验证 损失 。 


(4) 超 参数 


hyper_parameters.py 文 件 定义 了 所 有 的 超 参 数 ， 用 户 可 以 自己 定制 训练 参数 。 用 户 可 以 使 用 python cifar10 train.py--hyper_parameter1=value1--hyper_ parameter2=value2 来 设置 所 有 的 超 参 
数 ， 也 可 以 改变 Python 脚 本 中 的 默认 值 。 共 有 以 下 五 类 超 参 数 。 


1) 关于 保存 训练 日 志 、tensorboard 和 屏幕 输出 的 超 参 数 : 
- version (str) : 检查 点 和 输出 时 间 会 被 存放 在 logs_vetsion 中 。 
: report freq (int) : 在 训练 过 程 中 ， 每 隔 tepott-fteq 次 进行 一 次 验证 集 验 证 ， 并 输出 验证 结果 。 


: train ema decay (float) : tensotboatd 将 记录 训练 误差 的 移动 平均 值 。 这 个 衰减 因子 在 TensotFlow 中 用 ttttain.ExponentialMovingAvetage(FLAGS.ttain_ema_decay,global_step) 来 定义 一 个 


ExponentialMovingAverage - 
2) 关于 训练 过 程 的 超 参数 : 
train steps (int) : 训练 总 步骤 。 
.is_full_validation (boolean) : 如 果 用 户 想 使 用 所 有 的 10000 张 验证 图 像 进行 验证 ， 则 参数 设 为 True， 或 者 想 随 机 使 用 一 批 验 证 数据 ， 则 参数 设 为 False。 
- train_batch_size (int) : 训练 批 次 大 小 。 
: validation batch size (int) : 验证 批 次 大 小 Gis_fall_validation=False AA 3k). 。 
: init ]r (float) : 初始 化 的 学 习 率 。 根 据 下 列 设置 ， 学 习 率 可 能 会 衰减 。 
: lr decay factor (float) : 学 习 率 衰减 因子 。 学 习 率 在 每 次 衰减 时 会 变 成 上 _decay_factorxcuttent_Jlearning rateo 
- decay_step0 (int) : 在 decay_step0 中 ， 学 习 率 会 第 一 次 衰减 。 


: decay_step1 (int) : 学 习 率 的 第 二 次 衰减 。 


3) 关于 控制 网 络 的 超 参 数 : 

- num _residual_blocks (int) : ResNet 总 层 数 =6Xnum_tesidual_blocks+2。 

` weight decay (float) : 权重 衰减 用 来 正则 化 网 络 ，total_loss=train_loss+weight_decayX 权 重 的 平方 和 。 

4) 关于 数据 变量 的 超 参数 : 

: padding size (int) : padding_size 是 在 图 像 的 每 一 侧 加 上 填充 的 行 ( 列 ) 数 。 填 充 和 随机 裁剪 可 以 防止 过 拟 合 问题 。 
5) 关于 加 载 检查 点 的 超 参数 : 

` ckpt_path (str) : 用 户 想 载 入 的 检查 点 路 径 。 

- is_use_chpt (boolean) : 如 果 is_use_chpt=True， 可 以 使 用 检查 点 ， 继 续 从 检查 点 执行 训练 。 

(5) 训练 

Train(0 定 义 了 所 有 关于 训练 阶段 的 类 ， 主 要 观点 是 运行 train op FLAGS .train_steps 次 。 如 果 步 数 %FLAGS.report freq==0， 则 会 立即 验证 、 训 练 并 在 tensorboard 上 写 下 所 有 的 总 结 。 
(6) 测试 


Train0 类 中 的 test0 逊 数 会 帮助 用 户 预 测 ， 它 会 返回 一 个 模型 [num test images,num _labels] 的 softmax 概 率 。 用 户 需 要 准备 和 预 处 理 测试 数据 ， 并 将 它 传 到 函数 中 。 用 户 既 可 以 使 用 自己 的 检查 点 ， 也 
可 以 使 用 预 训练 的 ResNet-110 检 查 点 。 


2.3.4 ”详细 代码 解析 


1) cifar10_main.py 文 件 是 该 图 像 分 类 程序 的 入 口 ， 通 过 调用 自 定义 的 训练 冰 数 和 测试 函数 开始 训练 网 络 ， 并 在 训练 完毕 后 对 网 络 进行 测试 。 





cifarl0 main.py 

# 导入 cifar10 train 中 所 有 函数 
from cifarl0 train import * 
# 导入 cif test HATA HB 
from cifarl0 test import * 
# 训练 网 络 
# maybe download and extract () 
# train object=Train() 

# train object.train() 

# 测试 网 络 进行 单 张 图 像 分 类 
test_object=Test (test dir) 
test object.test () 

test object.disp k result (10) 

















































































































2) cifar10 train.py 文 件 定 义 了 Train 类 ， 负 责 对 所 有 训练 和 验证 的 处 理 ， 包 括 对 占 位 符 的 定义 、 构 建 训练 验证 图 函数 的 定义 、 训 练 函 数 的 定义 、 测 试 函数 的 定义 、 损 失 函 数 的 定义 、 误 差 国 数 的 定义 、 
生成 验证 集 的 定义 、 生 成 变量 训练 批 次 的 定义 、 训 练 操作 的 定义 、 验 证 操作 的 定义 、 全 验证 集 的 定义 ， 程 序 会 跨 过 类 执行 。 





cifarl0 train.py 
# 导 入 resnet 中 所 有 的 包 
# 主 要 用 于 统计 激活 函数 ， 创 建 变量 ， 构 建 罗 
from resnet import * 
# 导 入 datetime 包 ， 主 要 用 于 记录 运行 时 间 
from datetime import datetime 
# 导 入 time 包 ， 主 要 用 于 记录 当前 时 间 
import time 
# 导入 cifar10 input 中 所 有 的 包 
# 主要 用 于 下 载 提 取 训 练 数据 ， 读 取 单 次 训练 批 次 ， 读 取 所 有 图 像 ， 垂 直 翻 转 ， 白 化 图 像 
# 随机 裁剪 和 翻转 ， 准 备 训练 数据 ， 读 取 验 证 数据 
T cifarl0 input import * 

# 以 pd 的 形式 导入 pandas 包 ， 主 要 围绕 series 和 DataFrame 对 数据 结构 进行 处 理 
import pandas as pd 
# 定义 Train 类 
class Train (object): 























出 层 ， 构 建 批 次 正则 化 层 ， 定 义 残 差 构 件 ， 测 试图 的 功能 
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初始 化 函数 : 总 共有 五 类 占 位 符 ， 分 别 为 训练 图 像 占 位 符 和 训练 标签 占 位 符 、 验 证 图 像 占 位 符 和 验证 标签 占 位 符 、 学 习 率 占 位 符 。 





def init (self): 
THEY LAF placeholders 
self.placeholders () 
# 占 位 符 函 数 
def placeholders (self): 
# 定义 图 像 占 位 符 image placeholder 类 型 为 float32， 随 机 训练 
# 训 练 批 次 大 小 ， 图 像 高 度 ， 图 像 宽 度 ， 图 像 深 度 











































































































self.image placeholder = tf.placeholder (dtype-tf.float32, 
shape-[FLAGS.train batch size, 
MG HEIGHT, 
MG WIDTH, 
MG DEPTH]) 
# 定 义 标 签 占 位 符 1abe] _placeholder 类 型 为 int32， m LU 训练 批 次 大 小 
self.label placeholder = tf.placeholder (dtype-tf.int32, 

















Sop train batch size]) 
定义 验证 图 像 占 位 符 vali image placeholder 类 型 为 float32 
# 随 机 验证 ， 验 证 批 次 大 小 ， 图 像 高 度 ， 图 像 宽度 ， 图 像 深 度 




























































































self.vali image placeholder = tf.placeholder (dtype=tf.float32, 
i i shape-[FLAGS.validation batch size, 
MG HEIGHT, 
MG WIDTH, 
MG DEPTH]) 














# 定 义 验证 标签 占 位 符 vali label placeholder 类 型 为 int32 
# 随 机 验证 ， 验 证 批 次 大 小 ” 
self.vali label placeholder = tf.placeholder (dtype=tf.int32, 

i i shape-[FLAGS.validation batch size]) 
# 定 义学 习 率 占 位 符 1z_ placeholder 类 型 为 float32 i 
self.lr age der = tf.placeholder (dtype=tf.float32, shape-[]) 

# 建 立 训练 验证 图 函数 ， 函 数 会 同时 建立 训练 图 和 验证 攻 

def build train validation graph (self): 

定义 至 局 步 数 global_step 变 量 值 为 0， 不 可 训练 

global step = tf.Variable(0, trainable-False) 

ue ”step 变 量 值 为 0， 不 可 训练 

validation st tf.Variable(0, trainable=False) 

# 定 义 比 数 10gi ts 占 位 符 为 图 像 捉 位 答 ， 残 差 构件 的 数目 ， 不 可 重新 使 用 

logits = inference (self.image placeholder, 

FLAGS.num residual blocks, 
reuse=False) 

# 定 义 验 证 比 数 vali logits 占 位 符 为 验证 图 像 占 位 符 

# 残 差 构件 的 数目 ， 重 新 使 用 

vali logits = inference (self.vali image placeholder, 

FLAGS.num_ residual blocks, 






















































































































































































reuse=True) 
SEV RT. Hsoftmax XA E MU (Lt KB pz 
He LIEN BR regu lossesAtf .GraphKeys . REGULARIZATION LOSSES 
regu losses = tf.get collection (tf£.GraphKeys.REGULARIZATION LOSSES) 
# 定 义 损 失 loss=1logits， 占 位 符 为 标签 占 位 符 
loss = self.loss(logits, self.label placeholder) 


dopo eer A a 


























































































































































































































self.full loss = tf.add n([loss] + regu losses) 
定义 预测 predict tions 等 于 softmax 
predictions = tf.nn.softmax (logit 
AYIB UU rain topl erroris UI, 占 位 符 为 标签 占 位 符 ， 有 效 
self.train topl error = self.top k error(predictions, 
self.label placeholder, 
1) 
定义 验证 损失 vali loss 为 验证 比 数 ， 占 位 符 为 验证 标签 占 位 符 
self.vali loss = self.loss(vali logits, self.vali label placeholder) 
定义 验证 预测 vali predictions Asoftmax(vali_logits) 




















vali predictions = tf.nn.softmax (vali logits) 

定义 验证 顶层 误差 vali topl error 为 验证 预测 ， 占 位 符 为 验证 占 位 符 ， 有 效 
self.vali topl error = self .top k error(vali predictions, 
self.vali label placeholder, 


1) 
# 定 义 训 练 操作 ， 指 数 平 均 移 动 数 为 全 局 步骤 ， 全 局 损失 ， 训 练 项 层 误差 








































































































self.train op, self.train ema op = self.train operat -ion (gl obal step, 
self.full loss, 
self.train topl error) 























# 定 义 验证 操作 val op 为 验证 步 数 ， 验 证 顶层 误差 ， 验 证 误差 

self.val op = self.validation op(validation . step, 
self.vali topl error, 
self.vali loss) 
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初始 化 一 个 存储 器 来 保存 检查 点 ， 合 并 所 有 的 结果 ， 以 便 能 通过 运行 





建立 ; 














: 第 一 步 ， 将 


summa 


def train(self): 

# 读 取 训练 数据 以 及 验证 数据 
# 调用 cifar10 input.py 包 中 的 prepare train data 函数 和 read validation datar Zi 

un _data, all labels = prepare train _ data (padding | size=FLAGS. padding . size) 

vali data, vali labels = read validation data () 


# 建 立 训练 图 和 验证 图 









































































































































self.build train validation graph () 

定义 存储 器 savet 为 全 局 变量 

saver = train.Saver(tf.global variables () ) 
HEU summary COLS ERR MUT 

summary o tf.summary.merge all() 

定义 初始 变量 init 为 初始 化 所 有 变量 

init = tf.initialize all variables () 

# 定 义 个 新 的 会 话 sess 

sess = tf.Session() 

















# 如 果 is use _ckpt 为 真 ， 则 从 检查 点 ckpt_path 载 入 网 络 文件 
if FLAGS.is use ckpt is True: 
saver.restore (sess, FLAGS.ckpt path) 
print 'Restored from checkpointhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17529/OEBPS/TexL/...' 
# 和 否则 重新 初始 化 
else: 
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sess.run(init) 
# 定 义 总 Zi summary ' writer train dir, sess.graph 
summary writer = tf.summary. FileWriter (train : dir, sess.graph) 
s ana e: 
step list = 
VE CURIA IR train error list 
train error list - [] 
# 定 义 验证 误差 列表 val_error list 
val error list = 
print 'Start traininghttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17529/OFBPS/Text/...' 
print /eS 
M c S 
for step in xrange(FLAGS.train ste 
# 生 成 训练 批 次 数据 、 训 练 批 次 标签 ， 并 页 是 名 练 批 次 大 小 
train batch data, train batch labels = 
self.generate augment train batch(all data, 
all labels, 
FLAGS. train batch size) 
# 生 成 验证 批 次 数据 、 验 证 批 次 标签 ， 并 定义 验证 批 次 大 小 
validation batch data, validation batch labels = 
self.generate vali batch (vali data, 
vali labels, 
FLAGS.validation batch size) 
# 每 隔 FLA report freq 次 训练 将 训练 结果 进行 输出 
if step % FLAGS.report freq == 0: 
HET 行 全 局 验证 
f FLAGS.is full validation is True: 
validation loss ` value, validation error value = 
self.full validation ( 
loss= self.vali loss, 
topl error-self.vali topl error, 
vali data-vali data,vali labels-vali labels, 
session=sess,batch data=train batch | data, 
batch label-train | batch | labels) 
# 定 义 验 证 和 函数 vali summ 
vali summ = tf.Summary() 
# 将 此 次 验证 集 错误 率 存 储 在 full validation error 变 量 中 ， 类 型 为 float 
vali summ.value. add(tag-'full validation error' 
simple value-validation | error ` value. astype( np.float)) 
# 写 入 验证 和 vali summ, 步 数 为 step 
summary writer.add summary (vali summ, step) 
# 刷 新 summary writer 
summary writer.flush() 
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else: 
_, validation error value, validation loss value - 

sess.run([self.val | op,self.vali _top! error,self.vali loss], 
{self.image placeholder: train batch | data, 





















































self.label placeholder: train batch labels, 
self.vali image placeholder:validation batch data, 
self.vali label placeholder:validation batch labels, 




















se r placeholder:FLAGS.init lr]) 

# 更 新 验证 误差 列表 
val error list.append(validation error value) 

# 计 时 开始 

start tim time .time () 

# 网 络 开始 训练 

_, _, train loss value, train error value = sess.run([self.train op, 

self.train ema op, 
















































































self.full loss, 
self.train topl error], 
(self.image | placeholder: 








train_batch data, 

self.label placeholder: 
train batch labels, 
self.vali image placeholder: 
validation batch | data, 
self.vali label | placeholder: 
validation batch labels, 
self.lr placeholder: 
FLAGS.init lr]) 



























































# 计 算 训练 时 间 

duration = time.time() - start time 

# 在 指定 间隔 内 输出 网 络 性 能 检测 

if step % FLAGS.report freq == 0: 

summary str = sess.run(summary op, 

{self.image placeholder:train batch data, 
self.label placeholder: train batch labels, 
self.vali image placeholder: validation batch data, 
self.vali label placeholder: validation batch labels, 































































































# 写 入 总 结 字符 
summary wri 





sel 








summary str， 步 数 为 step 


f.lr placeholder: 


ter.add summary (summary str, 


FLAGS.init lr]) 


step) 


# 每 步 样 例 数 num_examples per step 为 训练 批 次 大 小 
num examples per step = FLAGS.train batch size 


# 单 个 样 例 训 练 时 间 






































































































































xamples per sec = num examples per step / duration 
# 每 批 次 运行 时 间 
sec per batch = float (duration) 
fE UF FFB format str 
format str = ('$s: step $d, loss = $.4f ($.1f examples/sec; $.3f ' 'sec/batch)') 
# 终 端 输出 format str 
print format str % (datetime.now(), 
step, 
train loss value, 
xamples per sec, 
sec per batch) 
# 和 输出 top1 训 练 误 差 什 
print 'Train topl error = ', train error value 
# 输 出 验证 层 误差 
print 'Validation topl error = $.4f' $ validation error value 
p i 出 验证 损失 值 
print eua tion loss = ', validation loss value 
print '---------------------------- S 7 
Pe a MIDE 
step list.append (step) 
# 更 新 训练 误差 列表 
train error list.append(train error value) 
# 根 据 FLAGS .decay step0 和 FLAGS decay ` PIARA 
if step == FLAGS.decay step0 or step == FLAGS.decay stepl: 
IRMI ÆFLACS.init lr 5T 0.1*FLAGS.init lr 
FLAGS.init lr = 0.1 * FLAGS.init lr Ë 
Hiro >) 38 32983lJFLAGS.init lr 
print 'Learning rate decayed to ', FLAGS.init lr 
ROPA s Cep 1000055 F OBUE Astept 4$ T MAB 
if step $ 10000 == 0 or (step + 1) == FLAGS.train steps: 
# 更 新 检查 点 路 径 checkpoint path i 
checkpoint path = os.path.join(train dir, 'model.ckpt') 
# 存 储 会 话 
saver.save(sess, checkpoint path, global step-step) 
df = pd.DataFrame (data={'step':st ap ist, 
‘train error' :train error list, 
validation error': val error list}) 
# 将 文件 以 csv 格 式 存储 在 训练 目录 中 
df.to csv(train dir + FLAGS.version + ' error.csv') 
损失 值 计 算 函 数 : ARAN SSN, BSSMogits, HxA2DIKs; labels, 格式 为 1D 张 量 ; 
def loss (self, logits, labels): 
# 定 义 标 签 1abels 的 类 型 为 int64 
labels = tf.cast (labels, tf.int64) 


分 类 top IRA SRN: 包含 


生成 验证 批 次 函数 : 





train_batch_size， 格 式 为 整 型 ; 


























































































































#E M26 Miicross entropy 














cross en 








Cross ent 


cos tropy = tf.nn. 
#7E MF LYS Miicross ent 


tropy mean = tf 








ropy _ mean 为 降低 平均 





























# 返 回 平 均 交 叉 炳 


return cross entropy mean 


























只有 LEAHY Mii softmax%e XU 





f.reduce mean(cross entropy, name= 















































def 














HE SUUS Vl 
vali data 


XE CBE DN 








generate vali batch (sel 
HEA BRL CLODO- MAKAK 中 透 取 
offset = np.random.choice (1 


FE 数据 批 次 为 人 




















该 函数 能 够 随机 生成 数据 批 次 ， 而 





f, vali data, vali 


f top k error(self, predictions, labels, k): 
XE LAK K sbatch _size 预 测 
batch size = predictions.get shape().as list() [0] 
# 定 义 顶 层 in topl 为 预测 ， 标 签 ，k=1 
in topl = tf.to float(tf.nn.in top k(predictions, labels, k-1)) 
# 症 又 正确 数 mu correct 与 顶层 有 关 i 
num correct = tf.reduce sum(in topl) 
return (batch size - num correct) / float(batch size) 


不 是 整个 验证 数据 ， 包 含 


_label, vali batch size): 














L0000 - val 
EE EFL X Es 
batch = = vali data[offset:of 


签 批 次 为 偏 移 加 验证 批 次 大 小 


















































vali label 











fset :of 








batch = vali label [of 




















# 返 回 验 证 数据 批 次 、 验 证 标签 批 














次 








return vali data batch, vali label batch 








次 国 数 : 





IX ERZ 

















M 
一 /小 


数据 、 批 次 标签 。 





返回 批 次 











VIZ Ee FEA 

























































































i batch size, 


Md 


1) [0] 


fsettvali batch size] 












































练 损失 的 移动 平均 数 。 


def 

















error): 







































































HE 义 ema 指 


VOTOS SERERE RUP HEZ FET 





train operation (self, global step, total loss, topl 
PEE learning rate, WAAK flr placeholder 
tf.summary.scalar('learning rate', self.lr placeholder) 
# 定 义 标量 Man train loss， 为 总 损失 total loss 
tf.summary.scalar('train loss', total loss) 
PEREDA train topi error, UA top] error 
tf.summary.sca train topl error', topl error) 



















































































ema = tf.train.ExponentialMovingAverage (FLAGS.train ema decay, global step) 

# 定 义 训 练 指数 平均 移动 数 与 全 局 损失 、 项 层 误差 有 关 

train ema op = ema. apply ([to otal loss, topl error]) 

# 定 义 标 量 平 均 训 练 顶 层 误 差 train topl error avg, 为 ema.average (topl error) 
tf.summary.scalar('train topl error avg', ema. average (topl : error) ) 

# 定 义 标量 平均 训练 损失 train | loss avg. Nema.average (total loss) 
tf.summary.scalar('train loss avg', ema. average (total loss)) 

# 定 义 opt 训 Lesh RRL, 学 司 率 为 学 习 率 占 位 符 ， 动量 为 0.9 


opt tf 











# 定 义 训 练 操作 train op 为 最 小 总 


train op = 





























.train. 5 ace eas rate=sel 





损失 ， 全 局 步 数 











.lr placeholder, 








opt.minimize(total loss, global step-global step) 


'cross entropy') 


sparse softmax cross entropy with logits (logits-logits, 


Z4 predictions, T&xC7J2D3K&; labels, TExC7J1D3K&; 


返回 误差 。 


labels=labels, name= 


参数 vali data， 格 式 为 4D 张 量 ; vali label, 








随机 裁剪 ， 同 时 水 平 翻转 并 白化 它们 。 包 含 


Fset+vali batch size, http://www.hzcourse.com/resource/read 








Be global step, 1D3K&; total loss, 1D5K&; top1_error, 


momentum-O0 . 9) 


f generate augment train batch (self, train data, train labels, train batch size): 
NA (迭代 大 小 -训练 批 次 大 小 ) 中 选取 i i 
fset = np.random.choice (EPOCH SIZE - train batch size, 1) [0] 
EXE 次 数据 为 偏 移 加 训练 批 次 大 小 i ui 
batch data = train data[offset:offsetttrain batch size, http://www.hzcourse.com/resource/read 
XE TR HEA BE LECT 前 和 翻转 
batch data = random crop and flip(batch data, padding size=FLAGS.padding size) 
XE XI OBEN OPER 
batch data = whitening image (batch data) 
XE ALR NE 为 俩 移 加 训练 批 次 六 小 
batch label = train labels[offset:offset+FLAGS.train batch size] 
PEREIRA, MARZ i i 
return batch data, batch label 


1D 张 量 ; 返 





返回 损失 张 量 。 


‘cross entropy per example') 


1D numpyZX£H, vali batch size, 











行 train ema op 


RLF - 


iE =, 


Book?path-/openresources/teach ebook/uncompressed/17529/0E 





< 


返回 验证 图 像 及 标签 。 





工 








ID 





I 


BPS/Text/.. 


参数 train_ data, TExC734D numpy 数 组 ; train labels, T&xC731D numpy 数 组 ; 








Book?path-/openresources/teach ebook/uncompressed/17529/0EBPS/Text/... 


.] 








# 返 回 训 练 操作 、 训 练 指数 平均 移动 数 操作 


return train op, train ema op 


H 

















SOU FERAL: 定义 验证 操作 。 包 含 参数 validation_step，1D 张 量 ; top1_error， 










































































































































































































































































def validation op(self, validation step, topl error, loss): 
j£ X ema SCF LB 3) BOY 0 . ORO ETE Bi 
ema = . train.ExponentialMovingAverage (0.0, validation step) 
# 定 义 ema2 指 数 平均 移动 数 为 0.95 和 验证 步 数 
ema2 = tf.train.ExponentialMovingAverage (0.95, validation step) 
# 定 义 验证 操作 val_op 与 验证 步骤 分 配 
val op = tf.group (validation step.assign add(1), 
ema.apply([topl error,loss]), 
ema2.apply([topl error, loss])) 
# 误 差 验证 top1_error _ val 为 误差 的 平均 值 i 
topl error ` val = ema.average(topl error) 
DEC topl error avg Rž W FE 
topl error avg = ema2.average(topl error) 
WHIT loss _val 为 损失 的 平均 值 
loss val = ema.average (loss) 
# 平 均 损 失 值 为 损失 的 平均 值 
loss val avg = ema2.average (loss) 
定义 标量 验证 顶层 误差 val_topl_error, S 
tf.summary.scalar('val topl error', topl error val) 
# 定 义 标 量 验证 顶层 平均 误差 val topl ertor avo» 为 val topl error avg 
tf.summary.scalar('val topl error avg', topl error avg) 
# 定 义 标 量 验证 损失 val loss, Nval_loss 
t£.sum ummary.scalar('val loss', loss val) 
# 定 义 标量 验证 平均 损失 val joss avg， 为 val loss avg 
tf.summary.scalar('val loss. | avg', loss | val avg) 
# 返 回 验证 操作 i 
return val op 
全 局 验证 函数 : 运行 在 10000 张 验证 图 像 的 验证 函数 ， 包 含 参数 loss，1D 张 量 ; top! error, 


回 平均 损失 和 误差 损失 。 






































1D 张 量 ; loss，1D 张 量 ; 


返回 验证 操作 。 


1D 张 量 ; vali data，4D 张 量 ; vali labels，1D 张 量 ; batch _ data，4D 张 量 ; batch label，1D 张 量 。 返 
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Book?path-/openresources/teach ebook/uncompressed/17529/0E 
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BPS/Text/...] 
































































































































































































































fset+FLAGS.validation_ batch size, http://www.hzcourse.com/resource/readl 








Book?path-/openresources/teach ebook/uncc 





Fset-FLAGS.validation batch size], 


def full validation(self, loss, topl error, session, vali data, vali labels, 
batch data,batch . | label): 
# 批 次 大 小 为 10000 
num batches = 10000 // FLAGS.validation batch size 
# 随 机 排序 
order = np.random.choice (10000, num batches * FLAGS.validation batch size) 
# 验 证 数据 子 集 vali data subset 从 order 开 始 > 
vali data subset = vali data[order, http://www.hzcourse.com/resource/read 
Eee DA vali labels subset 为 ordezr 的 标签 
vali labels subset = vali labels[order] 
定 文 损失 列表 ioss list 
loss list = [] 
# 定 义 误差 列表 error list 
error list = [] . 
# 对 zange 进 行 step 次 遍历 num batches 
For step in range (num batches): 
# 定 义 偏 移 cffset 为 步 数 step* 验 证 批 次 大 小 validation batch size 
offset = s cb * FLAGS.validation batch size 
定义 填充 字典 feed_dict E ú 
feed dict = (self.image | placeholder: batch data, 
self.label placeholder:batch . label, 
self.vali . image j| placeholder: 
vali data subset[offset:of 
self.vali | label _ pl aceholder: 
“vali labels | subset [offset:of 
self.lr placeholder:FLAGS.init lr) 
# 定 义 损失 值 loss ”valus， 顶 层 误差 值 为 top] error value 
loss value, topl error value - session.run([loss, topl error], 
feed dict-feed dict) 








# 更 新 损失 列表 Loss list 
loss list. append (1oss ` value) 

# 更 新 误差 列表 error list 

error list.append(topl error value) 
# 返 回 损失 列表 的 平均 值 ， 误 差 列 表 的 平均 值 


return np.mean(loss list), np.mean(error list) 
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3) cifar10 test.py 文 件 定义 了 Test 类 ， 用 来 预测 图 像 的 类 别 。 其 中 分 





cifarl0 test.py 

# 从 resnet 中 导入 所 有 函数 
from resnet import * 

# 从 datetime 中 导入 datetim 
































































































































































































































































































































from datetime import datetime 
# 导 入 time 包 
import time 
# 从 cifar10 input 中 导入 所 有 函数 
from cifarl0 input import * 
# 以 pd 的 形式 导入 pandas 
import pandas as pd 
#M PILP & A Image 
from PIL import Image 
#3 Anumpy 
import numpy 
# 导 入 os 
import os 
#Test% 
class Test (object): 
# 定 义 初 始 化 函数 
def init (self,pathname): 
FIM ENTREE eSB TE 
self.test image path=pathname 
# 测 试图 像 占 位 符 ， 参 数 包 括 占 位 符 类 型 、 测 试 批 次 大 小 、 图 像 信息 
self.test image placeholder = tf.placeholder (dtype-tf.float32, 
shape-[FLAGS.test batch size, 
MG HEIGHT,IMG WIDTH,IMG DEPTH]) z = 
# 测 试图 像 数 组 = 
self.test image array=[] 
# 定 义 测试 函数 
def test (self) 
# 测 试 医 像 数 组 
def init  (self,pathname): 
FB ETE a Pe Hh 
pathDir = os.listdir(self.test image path) 
PEJ ea 4€ Hh Hl: 
for allDir in pathDir: 
AS BU RACE ALI Ach La 
child = os.path.join('$s$s' $ (self.test image path, allDir)) 
PREH 32x 32 EL E z 
testimage = numpy.asarray (I [mage .open (child) .resize((32, 32), 
Image.ANTIALIAS) ) 
# 将 测试 图 像 加 入 测试 图 像 数组 中 
test image array.append (testimage) 
# 将 测试 图 像 转化 为 数组 类 型 
self.test image array = numpy.array (test image array) 
# 统 计 测试 图 像 数 量 
num test images = len(self.test image array) 
# 统 计 批 次 数量 
num batches = num test images // FLAGS.test batch size 
# 统 计 剩 余 图 像 





remain x = num test images $ FLAGS.test batch size 
print '$i test batches in totalhttp://www.hzcourse.com/resource/readi 


be LIEB og] ts 占 位 符 为 图 像 占 位 符 、 残 差 构件 的 数目 、 不 可 重新 使 用 




















别 定 义 了 测试 函数 、 获 取 项 层 标签 


Book?path=/openresources/teach ebook/uncompressed/17529/O 
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IBPS/Text/...' 





I 











snum batches 





# 定 义 获取 顶层 
def get top 


ZW. 





Va GUSCETAEROS HUM. EU K. 


array dim = 


ferenc 





(self 











logits = int 


f.test image : 


placeholder, 


FLAGS.num residual blocks, 
reuse-False) 


# 定 义 预测 predqi ci 
predictions = 























saver = 


tions so 
f.nn.sof 
# 将 训练 中 所 有 变量 量 保存 到 saver 中 


.train.Saver( 


ftmax 
logits) 


























(logits) 


| variables () ) 





# 定 义 一 个 新 的 会 话 sess 


sess tf.Session() 











# 从 FLAGS .test ck pt pa 
saver.restor 





th 恢复 会 话 








# 输 出 从 FLAGS .test ckpt : 


pathl/ & Big 








print 'Model restored 
# 定 义 预 测 数组 


prediction array = np. 

















array([]). 


# 对 range 进 行 step 次 裔 Hnum batches 

























































































(sess, FLAGS.test ckpt path) 





from ', FLAGS.test ckpt path 


reshape (-1, NUM CLASS) 



















































































oar 


I 
















































































































































































for step in range (num batches): 
# 如 果 步 数 step 能 被 0 整除 
if step % 10 = 
HRIGE HOP cell 
rin $i batches finished!' $step 
HREN 〈 步 数 * 测 试 批 次 大 小 ) 
offset = step * FLAGS.test batch size 
# 测 试图 像 更 新 为 [offset:offset+FLAGS .test batch size, http://www.hzcourse.com/resource/readi 
test image batch = 
self.test image array[offs 
# 批 次 预测 数组 与 预测 、 测 试图 像 占 位 符 、 洲 j 试 图 像 批 次 有 关 
batch prediction array = sess.run(predictions, 
feed dict=(self.test image placeholder: 
test image batch)) 
# 预 测 数组 连接 
? prediction array = np.concatenate((prediction array, batch prediction array)) 
FURIE VBA AO 
if remain | images '= 0: 
self.test image placeholder = tf.placeholder (dtype-tf.float32, 
shape-[remain images, 
MG HEIGHT, 
MG WIDTH, 
MG DEPTH]) 
logits = inference(self.test image placeholder, 
FLAGS.num residual blocks, 
reuse-True) 
定义 预测 predictions 等 于 softmax (lo ogits) 
predictions = tf.nn.softmax(logits) 
定义 测试 图 像 批 次 为 具有 残余 AEn RA 图 像 数 组 
test image batch = self.test image array[-remain images:, http://www.hzcourse.com/resource/read 
# 批 次 预测 数组 与 预测 、 测 试图 像 EF. 测试 图 像 批 次 有 3 
batch prediction array = sess.run(predictions, 
feed dict=(self.test image placeholder: 
test image batch}) 
# 预 测 数组 连接 = P 
? prediction array - np.concatenate((prediction array, batch prediction array)) 
self.prediction array-prediction array 
# 返 回 预测 数组 








return po ay 





标签 函数 ， 
1 label ( 








eee _array 
predict array): 





len (predict array) 

















# 预 测 标签 初始 化 ， 

predict label 

PE NT PR CRUB — i 
maxpredict = predict array[0] 
19b JJ) BB 2H PEE PE i 








i 


for i in range (array dim): 
# 如 果 最 大 预测 值 小 于 当前 值 


f maxpredict < 




















predict array[i]: 




















# 更 新 最 


预测 值 为 当前 值 





maxpredict = 
# 预 测 标签 为 i 
predict label 


predi 





= i 











Bk 


H 


预测 标签 








return predict label 




















# 定 义 显 示 top kA RAM, AUD 














def disp k result(self,k): 
HN 
label name = ['airplane', 
Hb Fk 
for i in range (k) 





4) cifar10 input.py 文 件 自动 地 下 载 并 提取 cifar1 





ci 
#3 Atari 


import tar 








# 定 义 临 nr 存放 测 








ct array[i] 


'automobile', 


试图 像 





















































"orrd't,- teat 





'deer', 


"dog', Y 











frog', 'horse', 


Ffset-FLAGS.test batch size, http://www.hzcourse.com/resource/readl 
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ID 








I 











'ship', 


f.test image array[i, http://www.hzcourse.com/resource/readl 





Book?path-/openresources/teach ebook/uncompressed/17529/0 


'truck'] 
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BPS/Text/...] 


I 














Book?path-/openresources/teach ebook/uncompressed/17529/0 








_ label (self.predic 





tempimage = Image.fromarray (sel 

# 图 像 名 为 测试 图 像 +i 
imagename='test%i.jpg'Si 

# 存 储 图 像 名 

tempimage.save (imagename) 
定义 临时 预测 标签 

temp predict label = self.get top 1 
# 输 出 图 像 名 加 预测 值 加 标签 名 RE 
print imagename+' predict: '+lab 


farl0 input.py i 
Fi le 包 ， 主 要 用 于 压缩 、 解 压 tat 文 件 


file 


















































l name[temp predic 


` 












































M 
一 /小 











# 从 six.moves 中 导入 urllib 包 ， 主 要 用 于 操作 url 

from six.moves import urllib 
de O 
import 

# 以 np 的 形式 导入 numpy 包 ， 主要 用 于 利用 数组 表示 向 量 、 和 矩阵 数据 结构 


impor! 


import 




















t numpy as np 
# 导 入 cPickle 包 ， 主 要 用 于 将 内 存 中 的 对 象 转换 成 为 文本 流 


cPickle 





# 导 入 os 包 ， 
import os 
# 导 入 cv2 包 ， 包 
import cv2 
# 数 据 路 径 
data dir = 
LEER E. 

















siii 








Wont 


1 data dir = 











包含 opencvV 主 要 函数 





farl0 data' 








ta/ci 





'cifarlO da 








i dir 
PR 据 的 统一 


DATA URL = ‘htt 


# 图 像 宽度 
MG WIDTH = 
SEIT 
































UM CLASS = 


'cifarl0 data/ci 
资源 定位 符 ” 
tp://www.cs.toronto. 
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10 
TRAIN RAN 





DOM LA 





# 
N 
# 训 | 练 随 机 标签 
TRAIN 





RANDOM LAI 


BELA 


BEI False # Want 








# 验 证 随机 标签 Vz 








VALI DOM LABEL (fx 











VALI RANDOM 








LABEL = False # 





A 


tem 
EPOCH S 





RAIN 
次 大 小 


Z 




















SAK AINUM_TRAI 
UM TI BATCH 


E = 10000 * NUM TI 








N BATCH 为 5 
= 5# How man 





RAT 





N 























# 下 载 提 
def 


AX PR 





B 
A. 


maybe download and extract(): 

















会 自动 地 下 载 





提取 ci 




















FHERH 








录 dest direc 





dest directory = dat 
# 如 果 指 定 目录 不 存在 ， 贝 


a dir 


I 创建 目 























far-10-batches-py/da 


far-10-batches-py/test ba 





edu/~kriz/ci 


HAR E JJ JI 
to use random 1] 


包括 各 种 各 样 的 函数 ,以 实现 操作 系统 的 许多 功能 


ta batch ' 





tch' 


far-10-python.tar.gz' 


练 数据 中 使 用 随机 标签 


abel for train data? 














# 想 要 从 验证 
Want to use random label 
读 入 多 少 文件 批 
y batches of 


# 想 要 








files 








BATCH 
far10 数 据 


tory 为 data dir 
标 目 录 








集 使 用 随机 标签 











for validation? 
次 ， 从 0 到 5 


you want to read in, 























t label] 









































` ay] 











from 0 to 5) 





tion array[i, http://www.hzcourse.com/resource/readl 

















.] 
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f not os. .path. exists (dest directory): 
# 生 成 目录 (dest directory) 
os.makedirs (dest directory) 

# 文 件 名 为 数据 的 统一 资源 定位 符 以 "/ R 
filename = DATA URL.split('/')[-1 
# 文 件 路 径 filepatph 将 文件 名 filename 加 入 目标 目录 
filepath = os.path.join(dest directory, filename) 
# 如 条 数据 文件 不 存在 ， 则 从 指定 的 网 址 下 载 数据 文件 
if not os.path.exists (filepath) : 

# progress% 2 

def _ progress (count, block size, total size): 
sys.stdout.write('\r>> Downloading %s %.1f 

$ (filename, float (count *block size) /1 

# 刷 新 缓冲 池 ， 输 出 指定 字符 串 
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loat (total size) * 100.0)) 






























































sys.stdout. flush () 

# 从 网 络 地 址 下 载 数据 文件 

filepath, | = urllib.request.urlretrieve (DATA URL, filepath, progress) 
# 文 件 状态 

statinfo = os.stat (filepath) 




















print ("Successfully downloaded', filename, statinfo.st size, 'bytes.') 
# 数 据 文件 解压 


tarfile.open (filepath, 'r:gz').extractall (dest directory) 



























































读 取 数 据 国 数 : UI dEASILENEROR MGEIOK. SSuEESEHRUE DA. BANS SHA SEH BS REA EBKRBSN VERS, KAARE SEIS NB GH, EIS #xXpath#ll 
is random label, RENIA% 示 答 








def read one batch (path, is random label): 

# 打 开 指定 数据 文件 
fo = open (path, 'rb') 
# 读 取 数 据 并 存储 至 dicts 中 
dicts = cPickle.load (fo) 
# 关 闭 文件 
fo.close () 
# 获 取 dicts 中 的 data 数 据 
data = dicts['data'] 
人 
if is random label is False: 

VENE R72 label 为 标 签 词 典 数组 
label = np.array(dicts['labels']) 
else: 
# 标 签 1labels 从 low 为 0 到 high 为 10、 大 小 为 10000 中 随机 产生 整 型 数 
labels = np.random.randint (low=0, high=10, size=10000) 
# 标 签 1label 为 labels 数 组 
label = np.array (labels) 
# 返 回 数据 ， 标 签 
return data, label 
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儿 函 数 生成 排序 并 且 返 回 图 像 。 返 
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def read in all images(address list, shuffle=True, is random label = False): 
data = np.array([]).reshape([0, IMG WIDTH * MG HE GHT * MG DEPTH]) 
label = np.array([]) 
#Xfaddress list 进 行 address 次 遍历 
for address in address list: 
tj Reading images from 与 地 址 
print 'Reading images from ' + address 
# 数 据 批 次 batch_ gata， 标签 批 次 batch 1abel 读 地 址 、 随机 标签 
batch data, batch label = read on | batch (address, is random label) 
# 数 据 data 为 data 与 batch data 的 连接 
data = np.concatenate ( (data, batch data)) 
bs label WN label ao x. 的 连接 
label = np.concatenate((label, batch label)) 
# 数 据 数目 num_dqata 为 标签 KE 
num data = len(label) 
# 将 数据 data 重 塑 为 (数据 数目 ， 图 像 高 度 * 图 像 宽 度 ， 图 像 深度 ) 
data = data.reshape ( (num data, 
IMG HEIGHT * IMG WIDTH, 
MG DEPTH), 
order-'F') 
# 将 数据 qata 重 塑 为 〈 数 据 数 目 ， 图 像 高 度 ， 图 像 宽度 ， 图 像 深度 ) 
data = data.reshape ( (num data, 
IMG HEIGHT, 
MG WIDTH, 
MG DEPTH) ) 









































































































































































































































# 重 新 排序 
if shuffle is True: 
# 输 出 'Shuffling' 
print 'Shuffling 
# 顺 序 为 数据 数目 HARK 
order = np.random.permutation (num data) 
# 数 据 为 从 order 开 始 的 data 列 表 
data = data[order, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17529/OEBPS/Text/...] 
# 标 签 为 从 order 开 始 的 label 列 表 
label = label [order] 
# 数 据 data 为 float32 
data = data.astype (np.float32) 
# 返 回 数据 ， 标 签 
return data, label 





















































































































































水 平 翻转 函数 : 以 ?0% 的 概率 翻转 一 张 图 像 ， 包 含 参数 image，3D 张 量 ; axis，0 代 表 垂 直 翻 转 ，1 代 表 水 平 翻转 ， 翻转 之 后 的 3D 图 像 。 














def horizontal flip(image, axis): 
T o sas a s o Len doce 
f = Np.random.randint (low=0, high=2) 
ive tise flip] prop 为 0 
if flip prop == 0: 

# 图 像 image 沿 axis 翻 转 

image = cv2.flip (image, axis) 

# 返 回 图 像 
return image 







































































白化 图 像 函数 : 将 图 像 白化 ， 参 数 为 Image_np， 返 回 白化 后 的 图 像 。 








def whitening image (image np): 

# 对 range 进 行 1 次 遍历 
for i in range (len (image np)): 
# 平 均值 mean 为 image_np 列 表 的 平均 值 
mean = np.mean (image np[i, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17529/OEBPS/Text/...]) 
# 标 准 std 为 image_np 中 最 大 值 ， 图 像 襄 度 * 图 像 宽度 * 图 像 深度 平方 根 的 倒数 
std = np.max([np.std(image np[i, http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17529/OEBPS/Text/...]), 
1.0/np.sqrt(IMG HEIGHT * IMG WIDTH * IMG DEPTH)]) i 
#image npW (image np—P3J4[fü) /std T T 
image np[i,http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17529/OEBPS/Text/...] = (image np[i, http://www.hzcourse.com/resource/ 
#ik [el image np 
return image np 













































































































































































随机 裁剪 和 翻转 函数 ; 随机 裁剪 和 随机 翻转 图 像 批 次 。 包 含 参数 padding_size， 整 型 ，batch_data，4D 张 量 ; 返回 随机 裁剪 和 翻转 后 的 图 像 








def random crop and flip (patch data, padding size): 
cropped batch = np.zeros(len(batch data) * IMG HEIGHT *IMG WIDTH *IMG DEPTH) 
.reshape (len (batch : data), 















































MG HEIGHT, 



































IPd rangexittr 1UORJJ 
for i in range (len (batch data)): 
la eran low 为 0 到 hign 为 2* 补 丁 大 小 、 大 小 为 1 的 随机 整 型 数 
fset = np.random.randint (low=0, high=2 * padding size, size=1) [0] 
RRIA ow 为 0 到 high 为 2* 补 丁 大小、 大 小 为 ] 的 随机 整 型 数 
t = np.random.randint (low=0, high-2 * padding size, size=1) [0] 
ER By 批 次 cropped batch 为 批 次 数据 从 i 开始 
#x 偏 置 为 x 偏 置 加 图 像 高 度 ，y 偏 置 为 y 偏 置 加 图 像 宽 度 
? cropped batch[i, BER pue o ee com/resource/readBook?path-/openresources/teach ebook/uncompressed/17529/OEBPS/Text/...] = batch data[i, http://www.hzcourse.con 
ffset+IMG WIDTH, :] 
HB LUN KP RR ES, mig ud aD. quim 为 1 
Ë S Z http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17529/OEBPS/Text/...] = horizontal flip(image=cropped batch[i, 
PR [BY jk X 
return cropped batch 
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到 numpy 数 组 ， 在 图 像 添加 值 为 0 的 边框 ， 包 含 参数 padding_size， 格 式 为 整 型 。 返 回 所 
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def prepare train data (padding size): 
# 定 义 路 径 列 表 path list 
path list = [1 
TAI range 进 行 i 次 遍历 
for i in range(1, NUM TRAIN BATCH+1) : 
# 更 新 路 径 列表 为 数据 全 目录 加 字符 串 i 
path list.append(full data dir + str(i)) 
# 读 取 图 像 数据 qata， 标 签 1abel ~ 
















































































data, label = read in all images (Path list, 
7 oe is random label=TRAIN RANDOM LABEL) 
# 设 置 边 框 大 小 É i E P 
pad width = ((0, 0), (padding size, padding size), (padding size, padding size), (0, 0)) 
# 图 像 数据 添加 边框 J i ú ú 





? data = np.pad(data, pad width=pad width, mode='constant', constant values=0) 

# 返 回 数据 、 标 签 

return data, label 
# 读 取 验 证 集 数据 函数 ， 取 验证 数据 ， 同 时 白化 
def read validation data(): 

# 验 证 数组 validation _ array， 验 证 标签 valiqation labels 

validation array, validation labels = read in all images([vali dir], 
7 7 is random label-VALI RANDOM LABE 
# 验 证 数组 valiqation array 为 白化 图 像 validation array = = 
validation array = whitening image (validation array) 
# 返 回 验 证 数组 、 验 证 标签 


return validation array, validation labels 
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5) resnet.py 文 件 定义 了 ResNet 的 网 络 模型 ， 包 括 输出 层 、 批 次 正则 化 层 、 卷 积 层 、 残 差 模块 函数 等 。 


resnet. 
# 以 np 的 形式 导入 numpy， 主要 用 于 利用 数组 表示 向 量 、 和 矩阵 数据 结构 
import numpy as np 
# 从 hyper _ parameters 导入 所 有 的 包 ， 主 要 包括 各 种 超 参 的 声明 
from hyper parameters import * 
E 001 
EPSILON = 0.001 
His à HRA, 3XJ— aki. JH A EL AAG Ask ERR b Ee SA £s 
def activation summary (x): 
PREZ tensor name x.op.name 
tensor name = x.op.name 
# 直 方 ED sc vane tte 数 
.summary. histogram (tensor_name + '/activations', x) 
# 标 量 为 张 量 名 加 稀 琉 度 
f.summary.scalar(tensor name + '/sparsity', tf.nn.zero fraction (x) ) 
# 创 建 变量 函数 ， 包 含 参数 name、 shape, initializar š 
def create variables (name, shape, initializer=tf.contrib.layers.xavier initializer(), is fc layer=False): 
# 如 果 is_ fc layer 为 真 ili 


if is fc layer is True: 








































































































































































































































































































# 正 则 表达 式 regularizet 为 张 量 ， 权重 衰减 表达 式 

regularizer = tf.contrib.layers.12 regularizer(scale-FLAGS.weight decay) 
else: 

# 正 则 表达 式 regularizer 为 张 量 ， 权 重 衰减 表达 式 

regularizer = tf.contrib.layers.12 regularizer (scale=FLAGS.weight decay) 

# 定 义 新 变量 new variables 名 称 、 外 形 、 初 始 值 、 正 则 表达 式 


























new variables = tf.get variable (name, shape=shape, 
initializer=initializer, 
regularizer=regularizer) 


























# 返 回 新 变量 
return new variables 
# 输 出 层 函 数 ， 包 含 参数 jnput layer， 类 型 为 2D 张 量 ;参数 num labels， 类 型 为 整 型 
def output layer (input layer, num labels): 
# 输 入 维度 input_qim 为 输入 层 重 塑 
input dim = input layer.get shape().as list( 
EEREN VERRE SHAS bol ghter JIE IND UR 标签 数 ] ， 
#is fc Jayez 为 真 ， 初 始 值 为 同一 单元 缩放 比例 初始 值 
fc w = create variables (name-'fc weights', 
shape-[ input : dim, num labels], 
is fc layer- True, 
initializer-t .uniform unit scaling initializer (factor-1.0)) 
































































































































































































































# 创 建 全 连接 偏 置 fc_b 变 量 ， 初 始 值 为 零 化 初始 值 

fc b = create variables (name-'fc bias', shape-[num labels], initializer=tf.zeros initializer () ) 
# 全 连接 函数 fc_h 为 输入 层 矩 阵 与 全 连接 权重 秆 阵 相 乘 加 全 连接 偏 置 

fc h = tf.matmul(input layer, fc w) + fc b 

# 返 回 全 连接 输出 

return fc h 





# 批 次 正则 化 层 函 数 ， 参 数 ijnput layer， 格 式 为 4D 张 量 ， 参 数 dimension ,格式 为 4D 张 量 
# 返 回 值 为 正则 化 后 的 4D 张 量 ——— 
def batch normalization layer(input layer, dimension): 
# 平 均值 mean， 方 差 variance 为 输入 层 、 轴 [0,1，2 2] 的 力矩 
mean, val lance « = tf.nn.moments (input eee axes=[0, 1, 2]) 
# 定 义 变量 beta， 类 型 为 peta， 参数 包括 维度 、 类 型 、 初 始 值 
beta = tf.get variable beta', 
7 dimension, 
tf.float32, 
initializer-tf.constant initializer(0.0, tf.float32)) 
# 定 义 变量 gamma， 参 数 包括 维度 、 闫 型、 初始 人 > 


gamma = tf.get variable ('gamma', 
















































































































































































dimension, 
tf.float32, 
initializer .constant initializer (1.0, tf.float32)) 














# 定 义 批 次 正则 化 层 为 输入 层 ， 参 数 包 括 平均 值 、 A. beta. gamma. BN EPSILON 


bn layer = tf.nn.batch normalization (input layer, 



































mean, 
variance, 
beta, 
gamma, 

BN | EPS LON) 























# 返 回 bn layer 
return bn layer 


# 卷 积 块 ， 包 括 卷 积 、 批 次 正则 化 、 线 性 调整 单元 层 ， 
HAGAE input layer，4D 张 量 ; filter a 列表 ; stride, AY. 
# 返 回 值 : Y = Relu(batch normalize (conv (X))), ， 格 式 为 4D 张 量 
def conv bn relu layer (input xi dM shape, stride): 

# 答 出 通道 out channel 为 滤 滤 器 [- 

out channe] filter shape[-1 

# 波 小 器 filter 为 创建 变 T, s m 外 形 为 filter shape 
Filter = create variables (name='conv', shape=filter_ shape) 
# 卷 积 ! 层 conv_layer 为 输入 层 、 os 步 长 为 [1, stride, str3de,1]， 边 框 为 SAM 
conv layer = tf.nn.conv2d(input layer, 
~ filter, 
strides=[1, stride, stride, 1], 
padding-'SAME') 
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PRU, 批量 卷 积 。 p 化 数据 ， 再 使 用 激活 函 


def bn rel 











# 批 次 正则 化 层 bn_layer 为 将 卷 积 层 和 输出 通道 批 次 正则 化 
























































bn layer = 
FME relu (bn_Tayer) 
output = tf.nn. relu(bn layer) 
e H 输出 
eturn out 


u conv layer(input 























layer, fi 


batch normalization layer(conv layer, out channel) 


数 ， 最 后 添加 卷 积 操作 


lter shape, 























# 输 入 通道 jn channel 输入 层 外 











in channel = 











区 列表 


input layer. get shape 








() . 




















as list ( 





layer, 


[71] 






















































































filter shape 


stride): 


in channel) 


shape-filter shape) 





# 抵 次 正则 化 层 pn layer 为 将 卷 积 层 和 输 出 通道 批 奖 正则 化 
bn layer = batch_normalization_layer (input_ 
# 线 性 单元 层 relu | layerNrelu ( bn_ layer) 
relu layer = tf.nn.relu(bn layer) 
# 滤 波 器 全 Iter 为 创建 变量 ， 名 称 为 conv， 外 形 为 
filter = create variables (name='conv', 
conv layer = tf.nn.conv2d(relu layer, 
i filter, 
strides-[1, 


return conv layer 














stride, 





padding-'SAME!') 










































































# 定 义 残 差 模块 函数 ， 在 ResNet 中 定义 残 差 构件 
# 人 参数 inpu 
# 返 回 4D 张 量 的 残 差 构件 
def residual block(input layer, 
# 输 入 通道 input ， channel% 
input channel = input layer.get 
# 如 果 输 入 通道 *2 为 输出 通通 
if input channel * 2 = 


HEX ResNeth 3: E 
t2 input 
$2838 reuse. 
# 验 证 医 

















# 增 加 维度 increase _ dim 为 真 
increas | dim = Tru 

# 步 长 为 2 

stride = 2 








# 又 或 者 输入 通道 为 输出 通道 























































































































输入 层 外 形 列 表 [- 


t shape 





output channel, 


I 
¿= 


0 


output channel: 








stride, 


first b] 


1], 


t layer， 格 式 为 4D 张 量 ， 参 数 output channel， 格 式 为 整 型 


























.as list()[ 


iq 





ock=False): 























tput channel] ) 


elif input channel == output channel: 
# 增 加 维度 为 假 
increase dim = Fals 
# 步 长 为 1 
stride = 1 
else: 
# 报 错 Output and input channel does not match in residual blocks!!! 
raise ValueError('Output and input channel does not match in residual blocks!!!") 
with tf.variable scope('convl in block'): 
# 如 果 是 第 一 块 
if first block 
AO RETE UE RR filter, AW conv, RYA[3, 3, input channel, output channel] 
filter = create variables (name-'conv', shape-[3, 3, u channel, ou! 
# 卷 积 层 1 为 输入 层 、 滤 波 器 ， 步 长 为 [1,1,1,1]， 补 丁 为 SRME 的 2D 卷 积 
convl = tf.nn.conv2d(input layer, 
filter=filter, 
serides= [1r sby Ty dy 
padding-'SAME') 
else: 
# 创 建 卷 积 块 1 
convl = bn relu conv layer (input layer, 
[3, 3, input channel, output channel], 
stride) 
with tf.variable scope ('conv2_in block'): 





# 创 建 卷 积 块 2 


conv2 = bn relu conv layer (conv1, 





# 如 果 增 加 维度 increase dim 为 真 
if increase dim is True: 
# 池 化 输入 pooled input WHA 
# 池 化 核 大 小 为 [1,2,2,1]， 步 长 为 [1,2,2,1]， 
pooled input = tf.nn.avg pool (inp 














# 池 化 后 填充 池 化 后 的 











padded input = tf.pad(pooled input, 
[[0, 0], 


else: 





e E» 


us 8 


return out ae 











格式 为 布尔 型 


页 充 输入 paddeq_inpu 
added input = input 
输出 output 为 卷 积 层 2+ 需 
tput = conv2 + padded input 


, reuseHH 























输出 





[3, 3, output channel, output channel], 


允许 添加 边 





ut layer, 
ksize=[1, 


2, 2, 


HE 





strides= 


[1, 








[0, 0], 


[0, 


padding='VALID') 





0], 


[input channel // 2, 
input channel // 2]]) 





layer 














函数 =1+2n+2n+2nx1=6n+2 
tensor batch, 格式 为 41 





t 为 输入 层 
充 输入 


格式 为 整 型 






























































def 





in 





# 层 数列 表 layers 

layers = [] 

with tf 
# 卷 积 层 0 为 卷 积 、 批 次 正 


conv0 = conv bn rel 




















.variable scope ('conv0', 
Wh. AH 


lu layer (input tensor batch, 








与 训练 图 共享 的 权重 ， 返 回 ResNet 残 差 构件 


ference (input tensor batch, n, reuse): 








# 激 活 总 结 activation summary (conv0) 


ac 














layers.append (conv0) 
# 对 zange 进 行 1 次 遍历 
for i in range (n): 

with t 
# 如 果 
if i == 0: 

# 卷 积 层 1 


convl = 


























为 层 [ 


tivation summary (conv0) 
T Hi layers .append (conv0) 


-1]、 大 小 为 1 


residual b] 


ock 


(] 


F.variable scope ('conv1 %d' 


6 的 





T 


T 
%1, 


ayers [一 ] 


reuse=reuse): 


调整 单元 层 


第 一 残 差 构件 








16, 


[3, 3s 3, 


reuse-reuse): 


16], 











else 





Hé RUE 


conv] 


为 层 [ 





shis 


= residual b] 











ock 


大 小 为 1 








6 的 残 差 构 伯 


tT 














# 激 活 总 结 activation summary (conv1 
ctivation_summary (conv1) 
T Hi layers .append (conv1) 





act 











layers .append (conv1) 
i in range(n): 

with t 
conv2 = 





for 











(1 





F.variable scope('conv2 %d' 


ayers [一 ] 


$i, 





— a 
` 


32) 








# 激 活 总 结 activation summary (conv1) 








activa 











layers.append (conv2) 
i in range(n): 

with t E 
# 卷 积 层 3 为 层 [- 


conv3 = — 





for 











t tion summary (conv2) 
T Hi layers .append (conv1) 





f.variable a $d' 


、 大 小 为 64 


residual block(layers[-1], 


ae 
Si, 


的 残 差 构件 

















layers .append (conv3) 
HI ABA OME REA 

assert 
with t 











F.variable scope ('f 





























# 输 入 通道 in ， channe1 为 层 


_ block (] 


+E layers. append (conv1) 


8,8, 64] 
conv3.get _Shape().as_list() [1:] == 
reuse=reuse) : 


Fat; 
[-1] 




















.通道 








in channel = lavers[- 


# 托 处 理 正 则 化 层 bn_ layer 为 








ayers[-1], 


64) 

















， 输 入 通道 


16) 


reuse=reuse): 


reuse=reuse): 


[8, 8, 64] 


1] .get >? as list() [-1] 
正则 化 层 [-1 























































































































bn layer = batch normalization a 
# 线 性 调整 单元 层 为 relu (bn_layer) ` 

relu layer = tf.nn.relu(bn . ru 

Mrd pe _pool1 为 relu layer. 2] 的 平均 值 
globa] . reduce m ME n [1, 2]) 
Br ART LSE SIF | 64] 

assert global pool.get shape ().as_list() [-1:] == 
# 输 出 层 output 与 全 局 池 化 有 3 

output = output layer (global pool, 10) 

# 更 新 output 

layers.append (output) 

PREJZ [71] 

return layers[-1] 








in channel) 


1) 


first block=True) 


1) 


















































F1oat32) 





# 测 试图 函数 ， 在 tensorboard 上 运行 此 函数 来 看 图 结构 

def test graph (train sasi ecu Jos 
#gi ATK input_tensorA fit (128, 32, 32, 3], RM Afloat32 
input tensor = tf.constant (np.ones ([128, 32, 32, 3]), dtype=tf. 
# 结 果 result 为 输入 张 量 的 推理 








result = ini 


ference (inp 








ut tensor, 2, 





# 初 始 值 ini 为 初始 所 有 变量 








init b 


F.initial 











# 创 建 会 话 sess 
sess = 
HA4T init 
sess.run (init) 











ize all variables ( 


f.Session() 


reuse-False) 


) 


# 总 结 编辑 summary writer 为 将 sess.graph 写 入 train dir 


summary writer 


ti 








f.train.SummaryWriter (train dir, 


Ses 





s.graph) 


6) hyper_parameters.py 文 件 存放 各 种 变量 的 值 ， 这 样 做 的 好 处 是 可 以 很 方便 地 修改 超 参 ， 大 大 提高 了 调试 的 效率 。 


hyper parameters.py 


# 以 tf 的 形式 导入 TensorFlow 


import TensorFlow as tf 
























































































































































































































































































































































































































































































































































































































































# 标 志 FLAGS | 
FLAGS = tf.app.flags.FLAGS 
He CFF Hips C'version', test 110， 定 义 保 存 日 志和 检查 点 的 目录 的 版 本 号 ) 
tf.app.flags.DEFINE string('version','test 110', 
''""'A version number defining the directory to save logs and checkpoints''') 
# 定 义 整 型 标志 (report freq，391， 步 又 用 于 输出 屏幕 上 的 错误 并 编写 摘要 ) 
tf.app.flags.DEFINE integer('report freq',391, 
'''Steps takes to output errors on the screen and write summaries''') 
# 定 义 浮 点 数 标 志 train_ema_dqecay， 训 练 错 误 移 动 平 均线 显示 在 tensorboard 的 衰减 因子 ) 
tf.app.flags.DEFINE float('train ema decay', 0. s: 
'''The decay factor of train error's moving average shown on tensorboard''') 
# 定 义 整 型 标志 (train steps, 80000, Ul AED 
tf.app.flags.DEFINE integer('train steps', 80000, '''Total steps that you want to train''') 
# 定 义 布尔 型 标志 (is full validation", ffo 验证 /全 验证 设置 或 随机 批 次 ) 
tf.app.flags.DEFINE boolean('is full validation', False, 
'"'"'Validation w/ full validation set or a random batch''') 
# 定 义 整 型 标志 (train batch size, 128, 训练 批 次 大 小 ) 
tf.app.flags.DEFINE integer('train batch size', 128, '''Train batch size''') 
# 定 义 整 型 标志 (validation batch size, 250, 验证 批 次 大 小 
tf.app.flags.DEFINE int teger ('val idation batch size', 250, 
'""'Validation batch size, better to be a divisor of 10000 for this task''') 
# 定 义 整 型 标志 (test batch size, 125， 测 试 批 次 大 小 ) 
tf.app.flags.DEFINE integer('test batch size', 125, '''Test batch size''') 
m A (init lr，0.1， 和 初始 化 学 习 率 ) 
z ags.DEFINE float('init lr', 0.1, '''Initial ` ui rate''') 
PE UE ABnE (1r decay factor, 0.1, 每 次 学 习 率 想 要 衰减 多 少 ) 
tf.app.flags.DEFINE float('lr decay factor', 0.1, 
''"'How much to decay the learning rate each time''') 
# 定 义 整 型 标志 (decay _step0，40000， 在 哪 一 步 衰减 权重 学 习 率 ) 
tf.app.flags.DEFINE integer('decay step0', 2l 
'"""At which st to decay the learning rate''') 
4 定义 整 型 标志 (decay stepl, 60000, EM- HREM (BB I4 
tf.app.flags.DEFINE integer('decay stepl', 60000, 
'"'""At which step to decay the learning rate''') 
4 定义 整 型 标志 Quum residual blocks, 5, EMTEA HO 
tf.app.flags.DEFINE integer('num residual blocks', 5, 
''"'How many residual blocks do you want''"') 
m lu (weight decay，0.0002，L2 范 式 的 标量 ) 
ags.DEFINE float('weight decay', 0.0002, '''scale for 12 regularization''') 
PE CA (padding size，2， 在 数据 变量 中 在 图 像 每 边 零 补丁 的 层 ) 
tf.app.flags.DEFINE integer('padding size', 2, 
= '''In data augmentation, layers of zero padding on each side of the image''') 
# 定 义 字 符 串 标志 〈ckpt_pPath， 赋 初 值 cache/1ogs_ repeat20/model .ckpt-100000, 恢 复 检 查 点 目录 ) 
tf.app.flags.DEFINE string('ckpt path', 
'cache/logs repeat20/model.ckpt-100000', 
''"'Checkpoint directory to restore''') 
# 定 义 布尔 型 标志 (is_use_ckpt，False， 是 否 载 入 检查 点 并 继续 训练 ) 
tf.app.flags.DEFINE boolean('is use ckpt', False, 
'''Whether to load a checkpoint and continue training''') 
# 定 义 字 符 串 标志 (test ckpt path, model 110.ckpt-79999， 恢 复 检查 点 目录 ) 
tf.app.flags.DEFINE string('test ckpt path', 'model 110.ckpt-79999', 
pe a int directory to restore''') 
# 训 练 目 录 train dirAlogs 加 标志 版 本 加 "/" 
train dir = 'logs ' + FLAGS.version + '/' 
# 测 试 目录 testgata - 
test dir='testdata/' 





验 运行 
用 户 可 以 通过 在 终 


2.3.5 ”实验 结果 及 分 析 


端 输入 python cifar10_main.py 来 执行 该 实例 





测试 的 截图 如 图 2-10 ~ 图 2-14 所 示 。 


2017-08-07 16:38:26.833911: W tensorflow/core/platform/cpu feature quard.cc:45] 

The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are 
available on your machine and could speed up CPU computations. 

2017-08-07 16:38:26.923079: W tensorflow/core/platform/cpu feature quard.cc:45] 

The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are 
available on your machine and could speed up CPU computations. 

2017-08-07 16:38:26.923089: W tensorflow/core/platform/cpu feature quard.cc:45] 

The TensorFlow library wasn't compiled to use AVX instructions, but these are av 
ailable on your machine and could speed up CPU computations. 

2017-08-07 16:38:26.923093: W tensorflow/core/platform/cpu feature guard.cc:45] 

The TensorFlow library wasn't compiled to use AVX2 instructions, but these are a 

vailable on your machine and could speed up CPU computations. 

2017-08-07 16:38:26.923097: W tensorflow/core/platform/cpu feature guard.cc:45] 

The TensorFlow library wasn't compiled to use FMA instructions, but these are av 
ailable on your machine and could speed up CPU computations. 

Start training... 


2017-08-07 16:38:37.656325: step 0, loss = 2.4282 (36.0 examples/sec; 3.553 sec/ 


batch) 

Train topl error = 0.882812 
Validation top1 error = 0.9200 
Validation loss = 2.36543 


图 2-10 “开始 训练 ResNet 


2017-08-07 16:58:18.834639: step 391, loss = 1.2917 (43.9 examples/sec; 2.917 se 
c/batch) 
Train top1 error = 0.421875 
Validation top1 error = 0.4200 
Validation loss = 1.09645 
2017-08-07 17:17:28.166088: step 782, loss = 1.0345 (44.0 examples/sec; 2.912 se 
c/batch) 
Train top1 error = 0.289062 
Validation top1 error = 0.3360 
Validation loss = 0.919497 
图 2-11  ResNet7l| Z& $ 78235 
ec/batch) 
Train top1 error = 20.0703125 
Validation topi error = 0.1680 
Validation loss = 0.533297 
2017-08-09 03:44:04.868866: step 8993, loss - 0.5914 (41.6 examples/sec; 3.077 s 
ec/batch) 
Train topi error = 20.125 
Validation topi error = 0.1560 
Validation loss = 0.427356 
2017-08-09 04:03:50.450993: step 9384, loss - 0.5793 (42.8 examples/sec; 2.989 s 
ec/batch) 
Train top1 error = 20.109375 
Validation topl error = 0.1280 
Validation loss = 0.347362 
2017-08-09 04:23:35.513935: step 9775, loss - 0.5286 (42.5 examples/sec; 3.011 s 
ec/batch) 
Train top1 error = 20.101562 
Validation top1 error = 0.1120 
Validation loss - 0.409142 | 


图 2-12 ”ResNet 训 练 第 9775 步 





TEES 


图 2-13 ”ResNet 测 试图 片 





a 
ç 
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Model restored from logs test 110/model.ckpt-9999 
© batches finished! 

test®.jpg predict: bird 

testi.jpg predict: dog 

test2.jpg predict: airplane 

test3.jpg predict: frog 

test4.ipq predict: frog 


图 2-14 ResNet 测 试图 片 类 别 


2. 测 试 误差 ( 见 图 2-15) 


test error 


0 782 1564 2346 3128 3910 4692 5474 6256 7038 7820 8602 9384 9775 


train error 








validation error 


图 2-15 ”误差 曲线 


本 实验 运行 过 程 包括 训练 和 验证 两 个 部 分 。 从 图 2-15 的 误差 曲线 可 以 看 出 ， 在 网 络 ResNet-34 初 期 ， 训 练 误差 和 测试 误差 都 会 很 大 。 随 着 迭代 次 数 的 增加 ， 训 练 误差 和 验证 误差 有 着 显著 的 降低 ， 从 开 
全 训练 误差 0.898438、 验 证 误差 0.912、 验 证 损失 2.3543 降 低 到 第 9775 步 的 训练 误差 0117188、 验 证 误差 0.1280、 验 证 损失 0.348188。 在 进行 到 1000 步 以 上 时 ， 误 差 曲线 在 0.1 附 近 收敛 。 随 着 ResNet 网 络 
层 数 的 增加 ， 网 络 在 Cifar-10 的 测试 误差 确实 有 所 降低 ， 当 层 数 达 到 110 层 时 ， 网 络 的 性 能 达到 最 优 。 当 ResNet 网 络 超过 1000 层 时 ， 该 网 络 的 优化 就 很 难 了 ， 测 试 误差 比 ResNet-110 高 出 1.5%， 可 能 是 训 
练 网 络 产 生 了 过 拟 合 现象 ， 而 对 于 相对 小 的 数据 集 ， 不 必要 设计 如 1202 层 那样 深 的 网 络 。 在 数据 集 上 ， 使 用 正则 化 ， 例 如 ，Maxout 和 Dropout 会 得 到 更 好 的 结果 。 但 是 ， 在 本 网 络 中 ， 没 有 使 用 Maxout 或 
是 Dropout， 只 是 简单 地 使 用 正则 化 设计 网 络 架构 。 


最 后 关于 测试 图 片 分 类 效果 ， 由 图 2-15 可 以 看 出 ResNet-34 网 络 在 训练 10000 步 之 后 ， 能 够 很 好 地 得 出 测试 图 片 的 类 别 。 证 明了 ResNet 确 实 克 服 了 优化 困难 ， 当 增加 了 深度 时 ， 确 实 可 以 获得 很 好 的 精 
确 度 收益 。 


4. 调 整 网 络 参 数 


若 想 要 修改 网 络 的 结构 ， 可 在 resnet.py 和 hyper_parameters.py 中 找到 修改 具体 的 参数 的 方法 。 








pooled input = tf.nn.avg pool (input layer, ksize=[1, 2, 2, 1], 
strides=[1, 2, 2, 1], padding='VALID') (1) 











语句 (1) 中 可 以 修改 网 络 中 的 池 化 层 ， 包 括 池 化 层 核 大 小 、 池 化 步 长 ， 以 及 有 效 性 。 


convl = residual block(layers[-1], 16) (2) 
conv2 = residual | layers[-1], 32) (3) 
conv3 = residual block(layers[-1], 64) (4) 
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语句 (2). (3. (4) 中 分 别 定 义 了 卷 积 层 1、2、3 中 不 同 残 差 构件 大 小 。 分 别 为 16x 16、32x32、64x 64。 




















tf.app.flags.DEFINE integer('train steps', 80000, 
'''Total steps that you want to train''') C5) 














语句 (5) 中 定义 了 训练 总 步 数 为 80000 步 ， 可 以 根据 自己 的 需求 进行 修改 。 


























tf.app.flags.DEFINE float('lr decay factor’, 0.1, 
''How much to decay the learning rate each time''') (6) 
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语句 (6) 中 定义 了 每 次 学 习 率 的 衰减 因子 ， 学 习 率 较 大 时 ， 容 易 在 搜索 过 程 中 发 生 震 荡 ， 因 此 需要 通过 学 习 率 衰减 因子 来 不 断 动态 调整 。 在 本 网 络 中 ， 在 第 40000 步 和 第 60000 步 分 
减 的 发 生 。 

































































tf.app.flags.DEFINE integer('train batch size', 128, '''Train batch size''') (7) 
tf.app.flags.DEFINE integer('validation batch size', 250, ) (8) 
tf.app.flags.DEFINE integer('test batch size', 125, '''Test batch size''') (9) 


语句 (7). (8). (9) 分 别 定 义 了 网 络 中 训练 批 次 大 小 、 验 证 批 次 大 小 、 测 试 批 次 大 小 ， 分 别 为 128、250、125。 对 于 Batch 大 小 的 选择 ， 首 先决 定 的 是 下 降 的 方向 ， 如 果 数 据 集 比较 小 ， 完 全 可 以 
采用 全 数据 集 学 习 (Full Batch Learning) 的 形式 。 对 于 大 的 数据 集 ， 随 着 数据 集 的 海量 增长 和 内 存 限 制 ， 一 次 性 载 入 所 有 数据 变 得 越 来 越 不 可 行 。 如 果 数 据 集 足够 充分 ， 那 么 用 一 半 (甚至 少 得 多 ) 的 数 
据 训 练 算出 来 的 梯度 与 用 全 部 数据 训练 出 来 的 梯度 几乎 是 一 样 的 。 


第 3 章 ”Caffe 深 度 学 习 框 架 搭建 与 图 像 语义 分 割 的 实现 


Caffe (Convolutional Architecture for Fast Feature Embedding) 是 目前 常用 的 一 种 深度 学 习 网 络 开源 框架 ， 研 究 者 可 以 按照 该 框架 定义 各 种 各 样 的 卷 积 神经 网 络 结构 。 由 于 该 框架 具有 表达 方 
便 、 速 度 快 、 组 件 模块 化 等 突出 优势 ， 在 视觉 、 语 音 以 及 多 媒体 等 多 个 领域 得 到 了 广泛 的 应 用 。 


本 章 将 从 理论 与 实战 两 方面 对 Caffe 深 度 学 习 网 络 框架 的 发 展 、 结 构 以 及 具体 的 搭建 过 程 进行 详细 介绍 ， 在 最 后 将 以 在 Caffe 深 度 学 习 框 架 下 构建 全 卷 积 神经 网 络 (Fully Convolutional 
Networks, FCN) ， 并 用 该 网 络 进行 图 像 语义 分 割 为 实战 示例 ， 对 该 实验 过 程 进行 详细 描述 与 分 析 并 给 出 具体 的 代码 程序 。 


3.1 Caffe 概述 


在 搭建 Caffe 深 度 学 习 网 络 框架 之 前 ， 对 Caffe 进 行 整体 了 解 是 必 不 可 少 的 ， 这 将 有 助 于 研究 者 更 全 面 、 直 观 地 了 解 此 深度 学 习 框架 ， 因 此 本 节 将 主要 从 理论 角度 出 发 ， 分 别 对 Caffe 框 架 的 发 展 、 定 
义 、 特 点 以 及 结构 进行 详细 介绍 。 


3.1.1 Caffe 的 特点 


\ 一 /一 


Caffe 是 一 个 清晰 、 高 效 并 且 开 源 的 深度 学 习 框 架 。Caffe 是 纯粹 的 C+ +/CUDA 架 构 ， 支 持 命令 行 、Python 和 Matlab 接 口 ， 既 可 以 在 CPU 上 运行 ， 也 可 以 在 GPU 上 运行 。 其 作者 是 博士 毕业 于 UC 
Berkeley 的 贾 扬 清 ， 目 前 就 职 于 Google 公 司 。 


Caffe 是 一 种 开源 软件 框架 ， 内 部 提供 了 一 套 基本 的 编程 框架 ,或 者 说 一 个 模板 框架 ， 用 以 实现 GPU 并 行 架构 下 的 深度 学 习 算 法 ， 人 允许 开发 者 使 用 已 有 模块 构建 不 同 结构 的 神经 网 络 ， 并 且 可 以 在 此 框 
架 下 增加 用 户 自 定 义 的 模块 ， 设 计 新 的 算法 。Caffe 可 以 应 用 于 视觉 和 语音 识别 、 机 器 人 、 神 经 科学 和 天 文学 。Caffe 提 供 了 一 个 完整 的 工具 包 ， 用 来 训练 、 测 试 、 微 调和 部 署 模型 。 


Caffe 有 如 下 5 个 特点 : 
1) 表达 方便 : 模型 和 优化 办 法 的 表达 用 的 是 纯 文 本 表达 ， 而 不 是 代码 ， 易 于 理解 ， 并 且 设 置 GPU 加 速 或 者 CPU 加 速 仅 需 一 条 单独 的 命令 即 可 。 


2) 速度 快 : 无 论 是 对 于 研究 人 员 还 是 工业 级 应 用 来 说 ， 对 计算 速度 的 要 求 一 直人 存在 。 在 大 规模 数据 处 理 过 程 中 ， 速 度 也 成 为 模型 性 能 评估 的 一 个 重要 指标 。 近 期 工作 研究 表明 ，Caffe 模 型 能 够 以 4ms/ 
张 的 速度 处 理 图 片 ， 甚 至 更 快 。 


3) 模块 化 : 多 个 不 同 的 模块 按照 其 功能 独立 设置 与 存放 ， 当 新 任务 出 现时 ， 设 置 灵活 性 和 可 扩展 性 强 。 


4) 开放 性 : 从 Caffe 模 型 推出 至 今 ， 已 有 大 量 的 研究 者 做 过 大 量 的 科学 研究 并 取得 较为 优秀 的 模型 或 者 结果 ， 这 些 源码 和 模型 公开 可 见 ， 易 于 开发 者 的 交流 与 讨论 。 同 时 ， 科 学 研究 和 应 用 程序 可 调用 
同样 的 代码 。 


5) 社区 性 : 在 视觉 、 语 音 以 及 多 媒体 等 多 个 领域 都 存在 不 同 的 社区 供 开 发 者 讨论 ， 如 Caffe-users group 和 Github。 


3.1.2 ”Caffe 框 架 结构 
Caffe 由 三 个 基本 的 原子 单位 组 成 : Blobs、Layers 和 Nets。 深 度 学 习 网 络 的 组 成 模式 表示 为 数据 块 工 作 的 内 部 连接 层 的 集合 。 在 一 个 特定 的 模型 中 ，Caffe 定 义 了 从 低 端 到 顶层 、 从 输入 数据 到 分 类 损 
失 、 以 层 为 单位 构建 的 (Layer-by-Layer) 模型 。 


在 Caffe 中 ， 数 据 以 Blobs 形 式 进 行 存 储 、 通 信和 信息 操作 ， 并 出 现在 网 络 的 前 向 传播 和 反 向 传播 过 程 中 。Blob 是 标准 阵列 和 统一 内 存 接口 框架 。Blob 用 来 存储 数据 、 参 数 以 及 分 类 损失 值 。Layer 是 网 
络 模 型 和 计算 的 基础 ， 是 网 络 的 基本 单元 。Net 作 为 Layer 的 连接 和 和 集合， 实现 网 络 的 搭建 。Blob 详 细 描 述 了 Layer 与 Layer 或 Net 是 如 何 进行 信息 存储 和 通信 的 。 


Blob 数 据 存储 : Caffe 通 过 “Blobs”， 即 以 四 维 数组 (图像 数 N， 通 道 数 K， 图 像 高 H， 图 像 完 W) 的 方式 存储 和 传递 数据 。 在 布局 上 ，Blob 存 储 以 行为 主 ， 因 此 在 网 络 前 向 传播 过 程 中 ， 最 右边 维度 变 
化 得 最 块 。 例 如 ， 在 一 个 4 维 Blob 中 ， 索 引 (n, k, h, w) 的 值 的 物理 位 置 索引 是 ( (nK+k) Hth) W+w。 一 个 Blob 存 储 两 块 内 存 ， 即 data 和 diff， 前 者 是 前 向 传播 的 特征 数据 ， 后 者 是 通过 网 络 反 向 计 


算 的 梯度 。 


Blobs 提 供 了 一 个 统一 的 内 存 接口 ， 用 于 批量 处 理 图 像 (或 其 他 数据 ) 、 网 络 参数 存储 或 参数 更 新 。Blob 是 对 要 处 理 的 实际 数据 的 封装 ，Blobs 使 用 SyncedMem 类 隐藏 了 计算 和 混合 CPU/GPU 的 操 
作 ， 根 据 需 要 从 主机 CPU 到 设备 GPU 进 行 同步 的 开销 。 主 机 和 设备 的 内 存 按 需 分 配 。 大 型 数据 存储 在 LevelDB 数 据 库 中 。 


Layer 网 络 基本 单元 : Layer 是 模型 的 本 质 和 计算 的 基本 单元 。 采 用 一 个 或 多 个 Blobs 作 为 输入 (bottom blobs) ， 并 产生 一 个 或 多 个 Blobs 作 为 输出 (top blobs) 。Layer 可 以 完成 多 种 操作 ， 如 卷 积 滤 
波 、 池 化 (pool) 操作 、 取 内 积 、 激 活 输出 ( 非 线性 激活 函数 /线性 激活 函数 ) 和 其 他 元 素 转换 、 归 一 化 、 载 入 数据 以 及 计算 分 类 损失 。 在 整体 网 络 操作 中 ，Layer 有 两 个 关键 职责 ， 即 前 向 传播 ， 需 要 输入 
并 产生 输出 ;， 反 向 传播 ， 取 梯度 作为 输出 ， 通 过 参数 和 输入 计算 梯度 。Caffe 提 供 了 一 套 完整 的 层 类 型 。 


Net 网 络 搭建 与 运行 : Caffe 保 留 所 有 有 向 无 环 层 图 ， 确 保 正 确 地 进行 前 向 传播 和 反 向 传播 。Caffe 中 典型 的 网 络 模型 是 一 个 开始 于 数据 层 、 结 束 于 分 类 损失 层 的 端 到 端的 学 习 系统 ， 可 以 使 用 CPU 或 者 
GPU 进 行 加 速 计算 ,分 类 性 能 良好 并 且 结 果 具 有 可 重 现 性 。 


图 3-1 所 示 为 Caffe 整 体 架 构 。 
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图 3-1 Caffe # 4k 2g 44 


3.2 Caffot ERR R spi 


下 面 介绍 在 Ubuntu 14.04 操 作 系统 环境 下 的 Caffe 安 装 过 程 。 其 他 安装 环境 为 G++/GCC 4.7.X. Python 2.7, 


1) 在 终端 输入 下 列 命令 安装 依赖 ， 主 要 的 依赖 环境 如 与 prototxt 文 件 相关 的 libprotobuf-dev、 与 LevelDB 数 据 库 文 件 相关 的 libleveldb-dev、 与 OpenCV 相 关 的 libopencv-dev、 与 HDF5 文 件 相关 的 
libhdf5-serial-dev 等 ， 见 图 3-2。 


:~$ sudo apt-get install libprotobuf-dev libleveldb-dev libsn 
appy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler]i 


图 3-2 ”安装 依赖 环境 


安装 |ibboost-all-dev 依 赖 ， 见 图 3-3。 


ES sudo apt-get install --no-install-recommends libboost-all 
-d 

正在 读 取 软件 包 列表 .. .完成 

正在 分 析 软 件 包 的 依赖 关系 树 

正在 读 取 状 态 信息 :.: 完成 


图 3-3 ”安装 boost 扩 展 库 文件 


安装 libgflags-dev 和 libgoogle-glog-dev 依 赖 ， 见 图 3-4。 


——— m: sudo apt-get install libgflags-dev libgoogle-glog-dev lib 
Lmdb -dev 
正在 分 析 软 件 包 的 依赖 关系 树 
正在 读 取 状 态 信息 ... 完成 
图 3-4 安装 libgflags-dev 和 libgoogle-glog-dev 
安装 Python 相关 文件 ， 主 要 包含 Python 依赖 文件 python-dev、Python 和 矩阵 运算 及 图 像 显 示 的 相关 包 python-numpy、python-scipy 和 python-matplotlib， 以 及 python 第 三 方 安装 工具 pip 等 ， 如 图 


3-5 至 图 3-9 所 示 。 


iti: —S s sudo apt-get install python-dev 
正在 读 取 软 件 包 列表 ... = 

正在 分 析 软 件 包 的 依赖 关系 树 

正在 读 取 状态 信息 ... 完成 


图 3-5 ”安装 python-dev 
om sudo apt-get install python-pipli 


图 3-6 ”安装 python-pip 


DO: -S sudo apt-get install python-numpylM 


图 3-7 = 装 python-numpy 


ES : -5 s sudo apt-get install python-scipy 

正在 读 取 软 件 包 列表 ... = 

正在 分 析 软 件 包 的 依赖 关系 树 

正在 读 取 状态 信息 . . . 完成 | 


图 3-8 ”安装 python-scipy 


es _ sudo apt-get install python-matplotlib 
正在 读 取 软件 包 列 表 .. . 完成 

正在 分 析 软 件 包 的 依赖 关系 树 

正在 读 取 状态 信息 ... 完成 


图 3-9 ”安装 python-matplotlib 
安装 libatlas-base-dev， 见 图 3-10。 


ED :~ sudo apt-get install libatlas-base-dev 
正在 读 取 软件 包 列 表 . . . 完成 
正在 分 析 软 件 包 的 依赖 天 系 树 
正在 读 取 状 态 信 息 ... 完成 


图 3-10 4 Xlibatlas-base-dev 
GPU 需要 安装 显卡 驱动 以 及 CUDA 和 CUDNN。 


2) 安装 Caffe 并 测试 。 从 Caffe 官 网 (https://github.com/BVLC/caffe) 下 载 源码 并 解压 文件 ， 进 入 caffe-mater 主 目录 ， 复 制 Makefile.config.example 文 件 ， 重 命名 为 Makefile.config， 并 根据 主 
机 环境 进行 修改 。 


如 果 使 用 CPU， 则 需要 将 CPU_ONLY:=1 这 条 命令 的 注释 去 掉 。 本 实例 中 使 用 Python 对 输入 层 数据 进行 处 理 ， 因 此 需要 将 WITH_PYTHON _LAYER:=1 这 条 命令 的 注释 去 掉 。 


然后 进行 Caffe 编 译 ， 在 终端 输入 以 下 命令 : 





: ~/caffe-master$ make all 
: ~/caffe-master$ make test 
: ~/caffe-master$ make runtest 





























在 以 上 步骤 执行 完毕 之 后 ，Caffe 安 装 成 功 ( 见 图 3-11) ， 下 面 使 用 mnist 数 据 集 对 Caffe 进 行 测试 ， 见 图 3-12。 


[---------- ] 11 tests from AdaDeltaSolverTest/1 (164 ms total) 


[---------- ] 1 test from SolverTest/0, where TypeParam = caffe: :CPUDevice<float> 
[ RUN | SolverTest/O.TestInitTrainTestNets 

[ OK ] SolverTest/0.TestInitTrainTestNets (1 ms) 

[---------- ] 1 test from SolverTest/O (1 ms total) 

[---------- ] Global test environment tear-down 

[==========] 1106 tests from 150 test cases ran. (41077 ms total) 


[ PASSED ] 1106 tests. 


图 3-11 Caffe @ 38 33 J| 7X, 


wasa: /caffe-masters ./data/mnist/get mnist.sh J 


图 3-12 ”下 载 mnhist 数 据 集 


将 数据 集 转换 为 Caffe 框 架 中 所 需 格式 ， 见 图 3-13。 


ns: /caffe-masters ./examples/mnist/create mnist.sh | 


图 3-13 ”创建 训练 集 


执行 mnist 数 据 集训 练 ， 见 图 3-14。 


EN: /caffe-masterS ./examples/mnist/train_lenet.shff 


图 3-14 开始 训练 
3) 编译 Python 接口 ， 为 Python 添加 Caffe 模 块 。 
首先 升级 pip， 在 后 期 安装 接口 依赖 文件 时 要 求 pip 版 本 为 最 新 版 本 ， 见 图 3-15。 
:-/caffe-masterS sudo pip install --upgrade pip 
Downloading/unpacking pip from https://pypi.python.org/packages/b6/ac/7015eb97dc 
749283ffdecic3a88ddb8ae03b8fad0f0eoó11408f196358da3/pip-9.0.1-py2.py3-none-any.wh 


liimd5-297dbdi6ef53bcef0447d245815f5144 
Downloading pip-9.0.1-py2.py3-none-any.whl (1.3MB): 1.3MB downloaded 


图 3-15 “升级 Python 中 pip 第 三 方 安装 工具 


安装 gfortran 编 译 器 ， 见 图 3-16。 





i) :~ /caffe-masterS sudo apt-get install gfortran 
正在 读 取 软 件 包 列表 . . . 完成 

正在 分 析 软 件 包 的 依赖 关系 树 

正在 读 取 状态 信息 ..。. 完成 


图 3-16 ”安装 gfortran 编 译 器 


然后 进入 Python 文 件 夹 中 ， 安 装 requirements.txt 文 件 中 的 依赖 文件 ， 如 图 3-17 所 示 。 


Wi; :~ /Caffe-master /python$ for req in S(cat requirements.txt); d 
o pip install Sreq; done 
Downloading/unpacking Cython>=0.19.2 


图 3-17 安装 编译 pycaffe 的 依赖 文件 


在 caffe-master 目 录 中 再 次 安装 ， 如 图 3-18 所 示 。 


Ó /Caffe-masterS sudo pip install -r python/requirements.txti 


图 3-18 ”安装 pycaffe 的 依赖 


最 后 ， 执 行 以 下 命令 进行 编译 ( 见 图 3-19) : 








8 














: ~/caffe-master$ make pycaffe - 


anne : — /caffe-master$ make pycaffe -j8 
touch python/caffe/proto/ init__.py 


CXX/LD -o python/caffe/ caffe.so python/caffe/ caffe.cpp 


uu. 








图 3-19 ”编译 pycaffe 接 口 


4) 测试 pycaffe 模 块 。 


首先 将 ~/caffe-master/python 添 加 至 用 户主 目录 下 的 .bashrc 文 件 中 ， 并 重新 加 载 .bashrc 文 件 ， 见 图 3-20 和 图 3-21。 





图 3-20 ”添加 接口 路 径 至 bash 资 源 文件 中 


Wi source bashrc 





图 3-21 重新 加 载 bash 资 源 文件 


在 其 他 目录 下 运行 Python， 然 后 导入 Caffe 模 块 ， 导 入 成 功 ， 则 pycaffe 模 块 安装 成 功 ， 见 图 3-22。 


i: - cd fcn.berkeleyvision.org-master/ 


wn. /fícn.berkeleyvision.org-masterS python 
Python 2.7.6 (default, Oct 26 2016, 20:30:19) 


[GCC 4.8.4] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 
>>> import caffe 

>>> 


图 3-22 ”测试 Caffe 模 块 


3.3 ”基于 Caffe 框 架 的 图 像 分 割 实现 (FCN) 


图 像 分 割 是 图 像 处 理 和 图 像 分 析 的 关键 步骤 ， 传 统 方案 采用 基于 图 像 边 界 或 者 基于 图 像 特征 的 分 割 方法 ， 以 及 边缘 检测 、 阅 值 分 割 和 区 域 生 长 等 算法 组 成 图 像 分 割 算法 。 本 次 实例 指导 基于 Jonathan 
Long 的 论文 《Fully Convolutional Networks for Semantic Segmentation》， 以 论文 中 的 FCN-8s 网 络 模型 作为 基础 网 络 结构 ， 使 用 卷 积 神经 网 络 实现 从 端 到 端的 语义 分 割 。 与 传统 分 割 方法 相 比 ， 不 再 
进行 目标 特征 设计 或 者 图 像 边 缘 算 子 设计 ， 减 少 由 中 间 步 骤 带 来 的 分 割 误差 ， 通 过 上 采样 ， 融 合 多 层 特征 ， 提 高 图 像 分 割 的 准确 性 。 下 面 将 分 步 讲解 网 络 结构 、 模 型 实现 原理 、 训 练 方法 并 进行 实验 结果 分 
HT. 


3.3.1 用 Caffe 构 建 卷 积 神经 网 络 
Caffe 的 网 络 模型 的 参数 文件 独立 存放 ， 下 面 以 Cifar-10 的 模型 参数 文件 (cifar10 quick train test.prototxt) 为 例 介 绍 网 络 中 每 一 层 的 参数 及 设置 方法 。 
(1) 输入 层 


layer { 
name: "cifar" 
"T 








top: "label" 
include { 
phase: TRAIN 





) 
transform param{ 
mean file: "examples/cifarl0/mean.binaryproto" 








data param{ 
source: "examples/cifarlO0/cifarl0 train lmdb" 
batch size: 100 
backend: LMDB 

















} 
} 


该 层 是 用 于 训练 的 数据 层 ， 其 name 属 性 为 该 层 的 名 称 ， 可 以 随意 指定 。type 属 性 定义 该 层 的 类 型 为 数据 层 ， 表 示 数 据 来 源 于 LevelDB 或 LMDB。 根 据 数据 来 源 的 不 同 ， 数 据 层 的 类 型 也 会 有 所 不 同 。 在 
训练 阶段 多 采用 LevelDB 或 LMDB。 对 于 top 或 bottom 属 性 ， 每 一 层 都 使 用 bottom 属 性 指定 的 层 来 输入 数据 ， 用 top 属 性 指定 的 层 来 输出 数据 。 如 果 只 有 top 没 有 bottom， 则 此 层 只 有 输出 ， 没 有 输入 ， 反 
之 亦 然 。 如 果 有 多 个 top 属 性 或 多 个 bottom 属 性 ， 表 示 有 多 个 Blobs 数 据 的 输入 和 输出 。 对 于 data 与 label， 在 数据 层 中 至 少 有 一 个 命名 为 data 的 top 输 出 。 如 果 有 第 二 个 top， 一 般 命 名 为 label。 这 种 

(data，label) 配对 是 分 类 模型 所 必需 的 。 


include 属 性 : 在 训练 阶段 和 测试 阶段 的 模型 的 层 数 一 般 不 相同 。 该 层 (layer) 是 属于 训练 阶段 的 层 还 是 属于 测试 阶段 的 层 ， 需 要 用 include 来 指定 。 如 果 没 有 include 参 数 ， 则 表示 该 层 既 在 训练 模型 


中 ， 又 在 测试 模型 中 。transform_param 属 性 指定 一 些 转换 参数 。 其 中 ，mean _file 参 数 指定 将 原始 数据 处 理 后 生成 的 均值 文件 。data_param 属 性 根据 数据 的 来 源 不 同 进行 不 同 的 设置 。 该 
cifar10 quick _ train_test.prototxt 文 件 表 示 数 据 来 源 于 LevelDB 和 LMDB， 数 据 也 可 以 来 源 于 内 存 、 硬 盘 文 件 、HDF5 格 式 或 者 图 片 格式 文件 。LevelIDB 和 LM DB 是 最 为 高 效 的 数据 存储 方式 。 


(2) SIRE 








layer { 
name: "convl" 
type: "Convolution" 
bottom: "data" 
top: "convi" 
param { 
lr mult: 1 
} 
param{ 
lr mult: 2 











} 


convolution param{ 
num output: 32 
pad: 2 
kernel size: 5 


stride: 





$ 





weigh 


S 


} 


bias 1 
type: 


} 


#72 (Convolution Layer) 是 卷 积 神经 网 络 (CNN) 的 核心 层 。 





t filler { 





filler{ 


type: "gaussian" 
td: 0.0001 


"constant" 


该 层 具体 参数 意义 如 下 。 


type 参 数 表 明 层 类 型 为 Convolution 层 。Ir_mult 属 性 即 学 习 率 的 系数 ， 在 反 向 微调 的 过 程 中 ， 根 据 解 决 方案 (solver.prototxt) 配置 文件 中 的 base_lr 和 这 个 属性 共同 调整 学 习 率 。 如 果 有 两 个 lr_muilt 属 
性 ， 则 第 一 个 表示 权 值 的 学 习 率 ， 第 二 个 表示 偏 置 项 的 学 习 率 。 一 般 偏 置 项 的 学 习 率 是 权 值 学 习 率 的 两 倍 。 


在 属性 convolution_param 中 ， 可 以 设 定 卷 积 层 特有 参数 ，num_output 属 性 指定 卷 积 核 的 个 数 ; kernel_size 属 性 指定 卷 积 核 的 大 小 ， 如 果 卷 积 核 的 长 和 宽 不 等 ， 则 需要 用 kernel_h 和 kernel wa Alix 


r3 


«E; 


stride 属 性 指定 卷 积 核 的 步 长 ， 默 认为 1， 也 可 以 用 stride_h 和 stride_w 来 设置 在 长 宽 方 向 上 的 不 同属 性 ; pad 属 性 指定 扩充 边缘 ， 默 认为 0， 不 扩充 。 扩 充 的 时 候 是 左右 、 上 下 对 称 的 ， 比 如 卷 积 核 的 大 


小 为 5x5， 如 果 pad 属 性 设置 为 2， 则 四 个 边缘 都 扩充 2 像素 ， 即 宽度 和 高 度 都 扩充 了 4 像素 ， 这 样 卷 积 运 算 之 后 的 特征 图 就 不 会 变 小 ， 也 可 以 通过 pad_h 和 pad_w 来 分 别 设 定 。weight filer 即 权 值 初始 化 ， 
默认 为 “constant”， 值 全 为 0， 很 多 时 候 使 用 xavier 算 法 来 进行 初始 化 ， 也 可 以 设置 为 gaussian。bias filler 即 偏 置 项 的 初始 化 。 一 般 设置 为 “constant”， 值 全 为 0; bias_term 属 性 指明 是 否 开启 偏 置 
项 ， 默 认为 true， 即 开启 ; group 属 性 表示 分 组 ， 默 认为 1 组 ， 如 果 group 的 值 大 于 1， 将 会 限制 卷 积 的 连接 操作 在 一 个 子 集 内 。 如 果 根 据 图 像 的 通道 来 分 组 ， 那 么 第 i 个 输出 分 组 只 能 与 第 i 个 输入 分 组 进行 连 


接 。 


(3) 池 化 层 


layer { 


name: "pool 

"Pooling" 

"convl" 
^pa 


type: 
bottom: 





T 








top: "pool 


pooling param { 


pool: 





kernel 
stride: 


MAX 
| Size: 
2 


池 化 层 是 为 了 减少 运算 量 和 数据 维度 而 设置 的 分 层 。type 属 性 表明 层 类 型 为 Pooling 层 。 在 pooling_param 中 ， 可 以 设 定 池 化 层 的 特有 参数 ， 其 中 kernel_size 属 性 指定 池 化 的 核 大 小 ， 也 可 以 用 
kernel_h 和 kernel_w 分 别 设 定 在 长 宽 方 向 上 不 同 的 池 化 核 大 小 ; pool 属 性 指定 池 化 方法 ， 默 认为 最 大 值 池 化 (MAX) ， 其 他 池 化 方法 包括 均值 池 化 (AVE) 和 随机 池 化 (STOCHASTIC) ; pad 属 性 与 卷 积 
层 的 pad 属 性 一 样 ， 进 行 边缘 扩充 。 默 认为 0;， stride 属 性 指定 池 化 的 步 长 ， 默 认为 1， 一 般 设置 为 2， 即 不 重 亚 池 化 ， 也 可 以 用 stride_h 和 stride_w 来 设置 。 


(4) 激活 函数 层 


layer { 
name: 
type: 
bottom: "p 
top: "pool 


"re] 








ul WwW 


"ReLU" 


ool1" 
TM 


激活 层 (Activation Layer) 对 输入 数据 进行 激活 操作 (实际 上 就 是 一 种 映射 空间 变换 ) ， 从 bottom 属 性 得 到 一 个 Blob 数 据 输 入 ， 运 算 后 ， 从 top 属 性 输入 一 个 Blob 数 据 。 在 运算 过 程 中 ， 该 层 没 有 改 
变数 据 的 大 小 ， 即 输入 和 输出 的 数据 大 小 是 相等 的 。type 属 性 表明 层 类 型 为 使 用 ReLU 激 活 函 数 的 激活 层 。 激 活 层 的 另外 一 个 属性 是 negative_slope， 默 认为 0。 对 标准 的 ReLU 函 数 进行 变换 ， 如 果 设 置 了 这 
个 属性 值 ， 那 么 当 数 据 为 负数 时 ， 激 活 输出 值 使 用 原始 值 乘 以 negative_slope 值 ， 此 时 的 激活 函数 为 PReLU 阔 数 。 


(5) 全 连接 层 








"InnerProduct" 





layer { 

name: "ipl" 
type: 
bottom: "pool3" 
top: "ipl" 
param { 

lr mult: 1 
J 
param { 

lr mult: 2 











) 
inner prod 
num ou 





uct param í 


tput: 64 





weight 


s 


) 


bias 1 








) 





filler ( 


type: "gaussian" 
td: 0.1 


Filler { 
type: 


全 连接 层 把 输入 当 作 一 个 向 量 ， 
参数 ， 其 中 num_output 属 性 指定 过 滤器 的 个 数 ; weight filler 属 性 即 权 值 初始 化 ， 默 认为 “constant”， 值 全 为 0， 很 多 时 候 使 用 xavier 算 法 来 进行 初始 化 ， 也 可 以 设置 为 gaussian; bias filler 属 性 即 偏 置 
项 的 初始 化 ， 一 般 设置 为 “constant”， 值 全 为 0; bias term 属性 指明 是 否 开启 偏 置 项 ， 默 认为 true， 即 开启 。 全 连接 层 实 际 上 也 是 一 种 卷 积 层 ， 只 是 它 的 卷 积 核 大 小 和 原 数据 大 小 一 致 。 因 此 它 的 参数 基 


"constant" 


输出 也 是 一 个 简单 向 量 (把 输入 数据 Blobs 的 width 和 height 全 变 为 1) 。type 属 性 表明 层 类 型 为 全 连接 层 。 在 inner_product_param 属 性 中 ， 可 以 设 定 全 连接 层 的 特有 


本 与 卷 积 层 的 参数 一 样 。 


(6) 精度 输出 层 


layer { 
name: "accuracy" 
type: "Accuracy" 
1 + 

















phase: TEST 








精度 输出 层 输出 分 类 (预测 ) 精确 度 ， 只 有 测试 阶段 才 有 ，include 属 性 即 表示 测试 阶段 使 用 。 





name: "loss" 























损失 层 (Loss Layer) WHARE PNRA. type BERAE RISoftmaxER ZI E7323 REEMA, MARWKASRBATITE. 


3.3.2 ”FCN-8s 网 络 简介 


FCN-8s 以 VGG-16 网 络 结构 作为 基础 网 络 结构 ， 并 添加 额外 的 3 层 跨 层 上 采样 层 ， 构 成 19 层 的 FCN-8s 全 卷 积 神经 网 络 ， 将 跨 层 特 征 信息 进行 融合 ， 提 高 像素 级 别 的 分 类 准确 率 。 与 VGG-16 网 络 不 同 的 
是 ,在 输入 层 ， 对 于 输入 图 像 的 尺寸 不 再 是 固定 的 3x224x224， 人 允许 多 种 尺寸 的 图 像 输 入 ， 在 第 7 层 全 连接 层 不 再 输出 1000 个 类 别 ， 而 是 改 为 21 个 类 别 ， 包 含 一 个 背景 类 。VGG-16 网 络 是 在 ILSVR 视 党 挑 
战 赛 上 使 用 的 模型 ， 类 别 设置 为 1000，FCN-8s 网 络 在 PASCAL VOC2011 数 据 集 上 进行 训练 和 验证 ， 仅 有 20 类 自然 图 像 目标 。 


各 


如 图 3-23 所 示 ，FCN-8s 的 跨 层 特 征 融合 ， 或 者 称 这 种 结构 为 跳跃 结构 ， 即 通过 多 层 的 上 采样 ， 累 加 形成 最 后 的 得 分 层 。 采 用 FCN-8s 命 名 的 原因 是 ，FCN 网 络 在 pool3 层 时 ， 对 于 原始 输入 图 像 大 小 ， 
尺寸 缩小 8 倍 ， 因 此 上 采样 倍数 为 8 倍 。pool4 层 相对 于 原 图 像 缩小 16 倍 ，pool5 层 相对 于 原 图 像 缩 小 32 倍 ， 上 采样 的 倍数 分 别 为 16 倍 和 32 倍 ， 即 网 络 名称 依 据 上 采样 的 倍数 进行 命名 。 


上 采样 预测 层 ”上 采样 上 采样 预测 层 ”上 采样 上 采样 预测 
(FCN-32s) 预测 屋 (CFCN-16s) 预测 层 KR (FCN-8s) 





; pool4 
预测 层 


输入 图 像 pooll  pool2 pool3  pool4 pool3 





pool5 
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图 3-23 ”FCN-8s 网 络 结构 


下 面 根据 网 络 初始 化 时 使 用 的 说 明文 件 对 网 络 结构 进行 解析 (deploy.prototxt) 。 











layer { 
name: "input" 
type: "Input" 
top: "data" 





input param ( 
shape { dim: 1 dim: 3 dim: 500 dim: 500 } 





输入 层 中 的 输入 参数 维度 只 是 做 一 个 示例 ， 在 网 络 输入 时 会 将 具体 的 图 像 大 小 输入 。 





layer { 
name: "convl 1" 
type: "Convolution" 
bottom: "data" 
top: "convl 1" 
param { 
lr mult: 1 
decay mult: 1 








} 

param { 
lr mult: 2 
decay mult: 0 


convolution param ( 
num output: 64 








kernel size: 3 
stride: 1 
} 
} 
layer { 
name: "relul 1" 
type: "ReLU" 
bottom: "convl 1" 
top: "convl 1" 








) 

layer { 
name: "convl 2" 
type: "Convolution" 
bottom: "convl 1" 


top: "convl 2" 


param ( 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
) 
convolution param í 
num output: 64 
pad: 1 
kernel_size: 3 
stride: 1 








} 
} 
layer { 

name: "relul 2" 
type: "ReLU" 
bottom: "convl 2" 
top: "convl 2" 





} 

layer { 
name: "pooll" 

type: "Pooling" 

bottom: "convi 2" 

top: "pooll 

pooling param { 
pool: MAX 
kernel size: 2 
stride: 2 














卷 积 块 1 包含 两 个 卷 积 层 、 两 个 激活 函数 层 以 及 一 个 池 化 层 ， 在 第 一 层 卷 积 层 中 设置 pad 参 数 为 100， 并 且 卷 积 核 尺寸 为 3x3， 步 长 为 1， 则 原来 100x 100 的 图 像 经 过 第 一 次 卷 积 之 后 ， 图 像 尺寸 变 为 
298x298。 激 活 函 数 不 改变 图 像 尺寸 。 在 第 二 次 卷 积 时 ，pad 参 数 为 1， 卷 积 核 大 小 为 3x3， 步 长 为 1， 则 图 像 尺寸 不 发 生 改 变 ， 仍 为 298x298。 在 pool1 层 中 ， 对 输出 进行 最 大 值 池 化 ， 核 大 小 为 2x2， 步 长 
为 2， 因 此 输出 图 像 尺 寸 变 为 149x149。 输 出 个 数 与 VGG16 网 络 设置 相同 。 


layer { 

name: "conv2 1" 
type: "Convolution" 
bottom: "pooll" 
top: "conv2 1" 














param { 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
) 
convolution param ( 
num output: 128 
pad: 1 
kernel size: 3 
stride: 1 








} 
} 
layer { 

name: "relu2 1" 
type: "ReLU" 
bottom: "conv2 1" 
top: "conv2 1" 





} 
layer { 

name: "conv2 2" 
type: "Convolution" 
bottom: "conv2 1" 
top: "conv2 2" 





param ( 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
} 
convolution param { 
num output: 128 
pad: 1 
kernel size: 3 
stride: 1 








} 
} 
layer { 

name: "relu2 2" 
type: "ReLU" 
bottom: "conv2 2" 
top: "conv2 2" 





} 
layer { 
name: "pool2" 
type: "Pooling" 
bottom: "conv2 2" 
top: "pool2" ~ 
pooling param { 
pool: MAX 
kernel size: 2 
stride: 2 











卷 积 块 2 包含 两 个 卷 积 屋 、 两 个 激活 立 数 层 以 及 一 个 池 化 层 ， 两 个 卷 积 层 的 pad 参 数 都 为 1， 卷 积 核 大 小 为 3x3， 步 长 为 1， 则 图 像 尺 寸 不 发 生 改 变 ， 仍 为 149x149。 在 经 过 最 大 值 池 化 层 之 后 图 像 尺寸 变 
为 75x75 (向 上 取 整 ) 。 


layer { 
name: "conv3 1" 
type: "Convolution" 
bottom: "pool2" 
top: "conv3 1" 








param ( 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
) 
convolution param ( 
num output: 256 
paq: 1 
kernel_size: 3 
stride: 1 








} 

} 

layer { 
name: "relu3 1" 
type: "ReLU" 
bottom: "conv3 1" 


top: "conv3 1" 
} 
layer { 

name: "conv3 2" 
type: "Convolution" 
bottom: "conv3 1" 
top: "conv3 2" 





param ( 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
} 
convolution param { 
num output: 256 
pad: 1 
kernel size: 3 
stride: 1 








} 
} 
layer { 

name: "relu3 2" 
type: "ReLU" 
bottom: "conv3 2" 
töp: "conv3 2" 





} 
layer { 

name: "conv3 3" 
type: "Convolution" 
bottom: "conv3 2" 
top: "conv3 3" 





param ( 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
} 
convolution param { 
num output: 256 
pad: 1 
kernel size: 3 
stride: 1 








) 
) 
layer { 

name: "relu3 3" 
type: "ReLU" | 
bottom: "conv3 3" 
top: "conv3 3" 





} 
layer { 
name: "pool3" 
type: "Pooling" 
bottom: "conv3 3" 
top: "pool3" ~ 
pooling param { 
pool: MAX 
kernel size: 2 
stride: 2 











卷 积 块 3 包含 三 个 卷 积 屋 、 三 个 激活 立 数 层 以 及 一 个 池 化 层 ， 三 个 卷 积 层 的 pad 参 数 都 为 1， 卷 积 核 大 小 为 3x3， 步 长 为 {|， 则 图 像 尺 寸 不 发 生 改 变 ， 仍 为 75x75。 在 经 过 最 大 值 池 化 层 之 后 图 像 尺 寸 变 为 
38x38 (向 上 取 整 ) 。 


layer { 
name: "conv4 1" 
type: "Convolution" 
bottom: "pool3" 
top: "conv4 1" 








param { 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
) 
convolution param ( 
num output: 512 
paq: 1 
kernel size: 3 
stride: 1 








} 
} 
layer { 

name: "relu4 1" 
type: "ReLU" 
bottom: "conv4 1" 
top: "conv4 1" 





} 
layer { 

name: "conv4 2" 
type: "Convolution" 
bottom: "conv4 1" 
top: "conv4 2" 





param { 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
} 
convolution param { 
num output: 512 
pad: 1 
kernel_size: 3 
stride: 1 








) 
) 
layer { 

name: "relu4 2" 
type: "ReLU" 
bottom: "conv4 2" 
top: "conv4 2" 





} 
layer { 

name: "conv4 3" 
type: "Convolution" 
bottom: "conv4 2" 
top: "conv4 3" 





param { 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 


convolution param ( 
num output: 512 
pad: 1 
kernel size: 3 
stride: 1 





} 
} 
layer { 

name: "relu4 3" 
type: "ReLU" 
bottom: "conv4 3" 
top: "conv4 3" 





} 
layer { 
name: "pool4" 
type: "Pooling" 
bottom: "conv4 3" 
top: "pool4" ^ 
pooling param { 
pool: MAX 
kernel size: 2 
stride: 2 











卷 积 块 4 包 含 三 个 卷 积 层 、 三 个 激活 函数 层 以 及 一 个 池 化 层 ， 三 个 卷 积 层 的 pad 参 数 都 为 1， 卷 积 核 大 小 为 3x3， 步 长 为 1， 则 图 像 尺 寸 不 发 生 改 变 ， 仍 为 38x 38。 在 经 过 最 大 值 池 化 层 之 后 图 像 尺 寸 变 为 
19x19。 


layer { 
name: "conv5 1" 
type: "Convolution" 
bottom: "pool4" 
top: "conv5 1" 








param { 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
} 
convolution param { 
num output: 512 
pad: 1 
kernel size: 3 
stride: 1 








} 
} 
layer { 

name: "relu5 1" 
type: "ReLU" 
bottom: "conv5 1" 
top: "conv5 1" 





} 
layer { 

name: "conv5 2" 
type: "Convolution" 
bottom: "conv5 1" 
top: "conv5.2" 





param { 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
} 
convolution param { 
num output: 512 
pad: 1 
kernel size: 3 
stride: 1 








} 
} 
layer { 

name: "relu5 2" 
type: "ReLU" 
bottom: "conv5 2" 
top: "conv5 2" 





} 
layer { 

name: "conv5 3" 
type: "Convolution" 
bottom: "conv5 2" 
top: “conve. 3" 





param { 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
} 
convolution param { 
num output: 512 
pad: 1 
kernel size: 3 
stride: 1 








) 
) 
layer { 

name: "relu5 3" 
type: "ReLU" 
bottom: "conv5 3" 
top: "conv5 3" 





} 
layer { 
name: "pool5" 
type: "Pooling" 
bottom: "conv5 3" 
töp: poolb" ~ 
pooling param { 
pool: MAX 
kernel size: 2 
stride: 2 











SAS = EE. =SEBREUR—MEME, =“ EA EW pad Zi/J1, SSEWZAZN/J3x3, AKH, WERRIRRENS, 719x19. GAR ABE CERRRISA 
10x10 (向 上 取 整 ) 。 


layer { 

name: "fco" 
type: "Convolution" 
bottom: "pool5" 
top: "fco" 

















decay mult: 1 


param ( 
lr mult: 2 
decay mult: 0 
} 
convolution param { 
num output: 4096 
pad: 0 
kernel size: 7 
stride: 1 




















全 连接 层 fc6: 可 以 观察 到 type 类 型 变 为 卷 积 ， 这 是 与 VGG16 网 络 不 同 的 地 方 ， 也 是 实现 FCN 的 一 个 关键 点 ， 将 全 连接 层 全 部 变 为 卷 积 层 ，pad 参 数 设置 为 0， 卷 积 核 的 大 小 为 7x7， 步 长 为 1， 则 输出 
大 小 为 4x4。 
layer { 


name: "fc7" 
type: "Convolution" 

















bottom: "fc6" 
top: "fc7" 
param { 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
} 
convolution param { 

num output: 4096 

pad: 0 

kernel size: 1 

stride: 1 




















全 连接 层 fc7: 层 类 型 为 卷 积 ，pad 参 数 设置 为 0， 卷 积 核 的 大 小 为 1x1， 步 长 为 1， 则 输出 大 小 为 4x4， 尺 寸 不 发 生变 化 。 





name: "score fr" 
type: "Convolution" 
bottom: "fc7" 


top: "score fr 











param { 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
} 
convolution param { 
num output: 21 
pad: 0 
kernel size: 1 








输出 层 的 卷 积 核 设置 为 1x1， 默 认 步 长 为 1， 则 图 像 尺 二 不 发 生变 化 ， 仍 为 4x4。 输 出 个 数 为 21 个 ， 包 含 20 个 类 别 以 及 一 个 背景 类 的 预测 概率 ， 


layer { 

name: "upscore2" 
type: "Deconvolution" 
bottom: "score fr" 
top: "upscore2" 
param { 

lr mult: 0 








) 

convolution param ( 
num output: 21 
bias term: false 
kernel size: 4 
stride: 2 

















上 采样 层 : 层 类 型 为 反 卷 积 层 ， 卷 积 核 设置 为 4x4， 步 长 为 2， 则 输出 图 像 的 大 小 变 为 12x 12。 


layer { 

name: "score pool4" 
type: "Convolution" 
bottom: "pool4" 
top: "score pool4" 








param ( 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 


convolution param ( 
num output: 21 
pad: 0 
kernel size: 1 








输出 层 : 该 层 的 输入 是 pool4， 卷 积 核 设置 为 1， 步 长 默认 为 1， 则 图 像 尺 斗 不 发 生变 化 ， 仍 为 19x19。 输 出 个 数 为 21 个 。 


layer { 
name: "score pool4c" 
type: "Crop" 





bottom: "score pool4" 
bottom: "upscore2" 
top: "score pool4c" 
crop param ( 

axis: 2 

offset: 5 


























UE: 参考 尺寸 为 12x12， 对 score_pool4 层 的 输出 (19x19) HITRE, Med 12« 12H ER. iXIEfSPST bottom/z, BAMA, $8— Til AP483221, BIMIABABSHA, RE 
参数 中 axis 为 2， 表 示 从 第 2 个 轴 开 始 裁 切 ，Caffe 中 的 数据 是 以 Blob 形 式 人 存在 的 ，Blob 是 四 维 数 据 。offset 代 表 在 每 一 维度 开始 裁 切 的 位 置 。 





name: "fuse pool4" 
type: "Fltwise" 
bottom: "upscore2" 
bottom: "score pool4c" 
top: "fuse pool4" 
eltwise param ( 
operation: SUM 


























累加 层 : 将 裁减 层 score_pool4c 与 upscore2 累 加 输出 ， 则 输出 维度 为 21x 12x 12, 


layer { 
name: "upscore pool4" 
type: "Deconvolution" 
bottom: "fuse pool4" 
top: "upscore pool4" 
param { 
lr mult: 0 














) 

convolution param ( 
num output: 21 
bias term: false 
kernel size: 4 
stride: 2 

















上 采样 层 : 层 类 型 为 反 卷 积 层 ， 卷 积 核 设置 为 4x4， 步 长 为 2， 则 输出 图 像 的 大 小 变 为 30x 30, 


layer { 

name: "score pool3" 
type: "Convolution" 
bottom: "pool3" 
top: "score pool3" 








param { 
lr mult: 1 
decay mult: 1 
} 
param { 
lr mult: 2 


decay mult: 0 
} 
convolution param { 
num output: 21 
pad: 0 
kernel size: 1 








输出 层 : 该 层 的 输入 是 pool3， 卷 积 核 设置 为 1， 步 长 默认 为 1， 则 图 像 尺 斗 不 发 生变 化 ， 仍 为 38x38。 输 出 个 数 为 21 个 。 


layer { 
name: "score pool3c" 
type: "Crop" 





bottom: "score pool3" 
bottom: "upscore pool4" 
top: "score pool3c" 
crop param { 

axis: 2 

offset: 9 


























裁剪 层 : 参考 尺寸 为 30x30， 对 score_pool4 层 的 输出 (38x38) 进行 裁剪 ， 则 输出 30x30 的 图 像 。 





name: "fuse pool3" 

type: "Fltwise" 

bottom: "upscore pool4" 

bottom: "score pool3c" 

top: "fuse pool3" 

eltwise param { 
operation: SUM 


























累加 层 : 将 裁减 层 upscore_pool4 与 score_ pool3c 累 加 输出 ， 则 输出 维度 为 21x30x30。 


layer { 
name: "upscore8" 
type: "Deconvolution" 
bottom: "fuse pool3" 
top: "upscore8" 
param { 
lr mult: 0 








) 

convolution param ( 
num output: 21 
bias term: false 
kernel size: 16 
stride: 8 














上 采样 层 : 层 类 型 为 反 卷 积 层 ， 卷 积 核 设 置 为 16x 16， 步 长 为 8， 则 输出 图 像 的 大 小 变 为 264x264。 


layer { 
name: "score" 
type: "Crop" 





bottom: "upscore8" 
bottom: "data" 
top: "score" 

crop param { 

axis: 2 


offset: 31 





























裁剪 层 : 参考 尺寸 为 100x100， 对 upscore8 层 的 输出 (264x264) HITRI, M21 100x100 的 图 像 ， 与 原始 输入 图 像 数 据 尺 寸 相 等 ， 并 对 每 一 个 像素 点 进行 预测 。 


网 络 在 第 一 个 卷 积 层 添加 100 个 像素 的 边框 ， 其 作用 是 将 图 像 放置 在 中 心 区 域 ， 然 后 再 通过 上 采样 以 及 裁剪 操 作 ， 达 到 对 每 一 个 像素 点 的 预测 。 


3.3.3” 许 细 代码 解读 


本 示例 将 从 训练 过 程 和 单 张 图 片 测试 两 个 角度 对 FCN 在 Caffe 框 架 上 的 编程 方法 及 关键 代码 进行 介绍 。 
(1) FCN-8s 网 络 训练 


训练 过 程 中 使 用 的 关键 文件 有 : 主 文 件 solve.py、 网 络 超 参数 设置 文件 solver.prototxt、 训 练 网 络 结构 文件 train.prototxt、 验 证 网 络 结 构 文件 val.prototxt、FCN 实 现 辅助 函数 文件 surgery.py， 以 及 测 
试验 证 集 辅助 函数 文件 score.py、python 类 型 的 输入 层 模块 文件 voc_layers.py。FCN-8s 训 | 练 文 件 关 系 图 如 图 3-24 所 示 。 


h. h. 


SBD 数据 集 


solver.prototxt train.prototxt 


e 


voc layers.py 


e 一 一 e£ 


solve.py score.py k 


VOC 数据 集 


val.prototxt 


e 


surgery.py 


图 3-24 FCN-8s 训 练 文件 关系 图 


首先 介绍 主 文件 solve.py， 在 主 文件 中 导入 已 训练 过 的 网 络 模型 参数 ， 并 使 用 训练 集 进行 微调 ， 使 用 solver.prototxt 中 的 超 参 数 构建 训练 及 验证 网 络 ， 并 在 固定 的 训练 迭代 次 数 后 进行 验证 集 测 试 输出 。 


solve. 
import 
+o He X ETT 
import surgery, score 
import numpy as np 
import os 
import sys 
try: 

import setproctitle 

setproctitle.setproctitle (os.path.basename (os.getcwd () ) ) 






































except: 
pass 

# 导 入 已 经 训练 好 的 模型 权重 

Weights = = 2 Ae uo org-master/voc-fcn8s/fcn8s-heavy-pascal.caffemodel' 





























# 设 置 是 否 采 用 GPU 训 练 ， 并 通过 命令 行 输入 GPU 设 备 编号 
caffe.set a argv[1])) 

caffe.set mode gpu ( 

di S protocxt RERI 

fe.SGDSolver (' /nome/d1/fcn.berkeleyvision.org-master/voc-fcn8s/solver.prototxt') 


Pig OLA MS 到 新 构建 的 网 络 中 







































































lver.net.copy from(weights) 
Pee EREE 
interp layers = or k in solver.net.params.keys() if 'up' in k] 
# 使 用 自 定义 函数 包 中 的 Ed 性 插值 方法 构建 上 采样 层 所 需 的 权 [n3 并 初始 化 








surgery.interp(solver.net, interp layers) 

I aside 

1 = np.loadtxt ('/home/d1/fcn.berkeleyvision.org-master/data/pascal/segllvalid.txt', dtype-str) 
# 网 络 整体 适 代 25 次 

for in range (25): 

# 开 始 训练 ， 1 ae 

solver.step (4000) 

# 测 试验 证 集 的 平均 损失 、 整 体 正 确 率 、 每 一 类 正确 率 等 


score.seg tests(solver, False, val, layer='score') 


















































在 主 文件 中 调用 的 网 络 超 参 数 设置 文件 solver.prototxt 包 含 指定 训练 和 测试 的 网 络 文件 、 训 练 的 迭代 次 数 等 。 





solver.prototxt: 

# 指 定 训练 网 络 

train net: "/home/dl/fcn.berkeleyvision.org-master/voc-fcn8s/train.prototxt" 
# 指 定 测 试 网 络 

test net: "/home/dl/fcn.berkeleyvision.org-master/voc-fcn8s/val.prototxt" 
test iter: 736 

t interval: 999999999 

HB tlah, 每 隔 20 次 输出 训练 集 当前 的 平均 损失 值 

display: 20 

average loss: 20 

lr policy: "fixed" 















































# 设 置 初始 的 学 习 率 及 动量 因子 

base lr: le-14 

momentum: 0.99 

iter size: 1 

max iter: 100000 

weight decay: 0.0005 

# 训 练 过 程 中 每 隔 4000 次 保存 一 次 网 络 权重 
snapshot: 4000 
snapshot prefix: "/home/dl/fcn.berkeleyvision.org-master/voc-fcn8s/snapshot/train" 
test initialization: false 






































训练 网 络 及 验证 网 络 结构 与 3.3.2 节 中 介绍 的 deploy.prototxt 网 络 结构 类 似 ， 有 三 部 分 是 训练 网 络 中 独 有 的 层 。 


train.prototxt: 
layer { 
name: "data" 








type: "Python" 
top: "data" 
top: "label" 


python param { 

module: "voc layers" 

layer: "SBDDSegDataLayer" 

param str:"{ 
N'sbdd dirX': 
\'/home/d1/fcn.berkeleyvision.org-master/data/sbdd/dataset\', 
\'seed\': 1337, 
\'split\': \'train\', 
\'mean\': (104.00699, 116.66877, 122.67892) }" 











训练 网 络 的 输入 层 的 类 型 是 Python， 即 通过 Python 函数 进行 输入 层 的 设置 。 从 python_param 中 的 module 参 数 设 置 可 知 在 voc layers.py 文 件 中 实现 输入 层 的 构建 ， 后 面 将 详细 介绍 该 文件 。FCN-8s 


的 训练 数据 使 用 的 是 ImageNet 的 数据 ， 将 ground truth 使 用 mat 格 式 文件 存储 。param _str 中 指定 训练 集 的 存储 路 径 以 及 训练 集 


在 第 六 层 和 第 七 层 的 全 连接 层 之 后 添加 随机 隐 退 层 ， 随 机 隐 退 比率 为 0.5。 


layer { 
name: "drop6" 
type: "Dropout" 
bottom: "fc6" 
top: "fcó6" 
dropout param ( 
dropout ratio: 0.5 














name: "drop7" 

type: "Dropout" 

bottom: "fc7" 

: "Boy ud 

dropout param { 
dropout ratio: 0.5 














e 


进行 中 心 化 时 的 参数 mean。 


在 得 分 层 之 后 添加 损失 层 ， 通 过 损失 值 计算 反 向 传播 。Caffe 中 损失 层 的 类 型 除 下 述 SoftmaxWithLoss 方 法 之 外 ， 还 有 其 他 损失 值 计算 方法 ， 但 对 于 多 分 类 问题 使 用 最 多 的 为 SoftmaxWithLoss 方 法 。 


在 loss_param 中 设置 忽略 类 别 为 背景 类 (255) , 


layer { 
name: "loss" 
type: "SoftmaxWithLoss" 
bottom: "score" 
bottom: "label" 
top: "loss" 
loss param ( 
ignore label: 255 
normalize: false 


























验证 网 络 测试 文件 与 训练 网 络 测试 文件 只 有 在 输入 层 不 同 。FCN-8s 中 使 用 的 验证 集 是 Pascal VOC2012， 该 数据 集中 标注 内 pg 格式 存储。 在 param_str 中 指定 验证 集 的 存储 路 径 


val.prototxt: 
layer { 
name: "data" 








type: "Python" 
top: "data" 
top: "label" 


python param ( 

module: "voc layers" 

layer: "VOCSegDataLayer" 

param str:"{ 
N' woe dr: 

XV! /home/dl/fcn.berkeleyvision.org-master/data/pascal/VOC2012N', 

\'seed\': 1337, 
N'splitN': \'segllvalid\', 
\'mean\': (104.00699, 116.66877, 122.67892) }" 








在 voc layers.py 中 使 用 Python 构建 自 定义 的 输入 层 (在 3.2 节 中 编译 Caffe 时 ， 将 WITH_PYTHON_LAYER:=1 命 令 打开 ) 


VOC _layers. py: 

import caffe 

import numpy as np 
from PIL import Image 
# 导入 随机 数 包 ， 在 数据 集 构建 过 程 中 ， 打 乱 读 入 的 数据 


import random 


















































使 训练 集 随机 性 更 强 

















妇 类 型 以 一 个 python 类 定义 ，VOCSegDataLayer 是 验证 集 使 用 的 输入 层 ， 标 注 使 用 的 是 jpg 类 型 的 二 维 图 像 。 


class VOCSegDataLayer (caffe.Layer): 
# 类 初始 化 函数 
def setup(self, bottom, 
# 获取 param_str 参 数值 “篇 站 层 定义 时 的 实 参 
params = eval (self.param str) 
# MER CR WO ERR 2 
self.voc dir = params['voc dir'] 
# 验证 集 的 名 称 文 件 
self.split = params['split'] 
# 数据 集中 心 化 参数 
self.mean = np.array (params ['mean']) 
# 是 否 进行 随机 排序 
self.random = params.get('randomize', True) 
self.seed = params.get ('seed', None) 










































































， 下 面 以 voc layers.py 文 件 详细 介绍 自 定 义 Caffe 的 层 结构 方法 。 


验证 集 


SBDDSsegDataLayer 是 训 乡 


# 判断 数据 层 是 否 具 有 两 层 输出 ， 即 图 像 数据 和 标签 数 和 




















1 


l= 2: 








len (top) 














raise Exception ("Need 
































































































































to define two tops: 








外， 如 果 不 是 两 层 则 报错 


D data and label.") 
数据 层 为 网 络 的 第 一 层 ， 不 存在 上 一 








































































































































































































ach ebook/uncompressed/1 











ach ebook/uncompressed/1 


# 判断 数据 层 是 否 有 输入 层 ， 有 则 报错 ， E 
if len(bottom) != 0: 
raise Exception("Do not define a bottom.") 
# 根据 指定 目录 加 载 验证 集 文 件 
split f = '[J/ImageSets/Segmentation/(].txt'.format(self.voc dir,self.split) 
self.indices = open (split f, 'r').read().splitlines () 
self.idx = 0 
IE ` not in self.split: 
.random = False 
# 根据 参数 将 验证 集 随机 排序 
if self.random: 
peta seed (self.seed) 
.idx = random.randint (0, len(self.indices)-1) 
# ERARE NE ot 
def reshape (self ottom, top): 
# 加 载 图 像 和 标签 an 
self.data = self. . load | image (self . indices [self.idx] ) 
self.label = self.load label (self.indices[self.idx]) 
# 转换 数据 格式 
top[0]. reshape (1, *self.data.shape) 
op[1] .reshape (1, *self.label.shape) 
# 将 数据 前 向 输出 
def forward(self, bottom, top): 
# 选择 当前 数据 为 前 向 输出 
h data [http: //www.hzcourse.com/resource/readBook?path=/openresources/1 
top[1].data [http://www .hzcourse.com/resource/readBook?path-/openresources/ 
# 选取 下 一 个 输出 
if self.random: 
self.idx = random.randint(0, len(self.indices)-1) 
else: 
self.idx += 1 
if self.idx == len(self.indices): 
self.idx = 0 
# 数据 层 不 进行 反 向 调整 ， 因 此 该 层 中 只 有 pass 命 令 


























B 图 像 为 BGR， 并 中 心 化 

































































.format (self 


def backward(self, top, propagate down, bottom): 
pass 
# 加 载 图 像 数据 ， 并 将 数值 类 型 更 改 为 float， 转 换 RGI 
def load image (self, idx): 
im = Image.open('{}/JPEGImages/{}.jpg' 
in = np.array(im, dtype-np.float32) 
in Sines ere] 
in -= self.mean 
in = in .transpose((2,0,1)) 
return in 
# 加 载 标签 数据 ， 验 证 集中 的 标签 是 二 维 的 图 像 数 据 












































def TOS d abel(self, idx): 
im = Image.open('{}/SegmentationClass/{}.png' 
label = np.array(im, dtype=np.uints) 
label = 














return label 




















DAS 


义 分 割 相关 实验 。 


class SI 


i 


ftsolve.pyrP3s]FHsurgery.py Xt P Éinterp šJ FREE PAN Tie, ECN AARAA, 

















BDDSegDataLayer (caf 
# 类 初始 化 函数 
def setup(self, 
+ 根据 param str 中 的 参数 i 











Fe.Layer): 











bottom, top) 


行 初始 化 























params = eval(self.param str) 



































.voc dir, idx)) 



































































































































.format (self 


label[np.newaxis, http://www.hzcourse.com/resource/readl 





.voc dir, idx)) 



























































































































































































































































self.sbdd dir = params['sbdd dir'] 
self.split = params['split'] 
self.mean = np.array (params['mean']) 
self.random = params.get('randomize', True) 
self.seed = params.get('seed', None) 
if len(top) != 2: 
raise Exception ("Need to define two tops: 
if len(bottom) != 0: 
raise Exception("Do not define a bottom.") 
# 根据 训练 集 的 路 径 加 载 训练 数据 
split f = '{}/{}.txt'.format (self.sbdd dir,self.split) 
self.indices = open (split f, 'r').read().splitlines () 
self.idx = 0 
if 'train' not in self.split: 
self.random = False 
if self.random: 
random. Plug aes seed) 
self.idx = random.randint(0, len(self.indices)-1) 
# 加 载 相 对 应 的 图 像 数据 和 标签 数据 
def r shap (self, bottom, top): 
self.data = self.load image (self.indices[self.idx]) 
self.label = self.load label (self.indices[self.idx]) 
ed [0].reshape(1, *self.data.shape) 
[1].reshape(1, *self.label.shape) 
# 前 向 给 是 一 组 图 像 和 标签 数据 ， 并 指定 下 一 组 输出 的 数据 
def forward(self, bottom, top): 
top[0].data[http: //www.hzcourse.com/resource/readBook?pa 
top[1].data [http: //www.hzcourse.com/resource/readBook?pa 
if se random 
self.idx = random.randint(0, len(self.indices)-1) 
else: 
self.idx += 1 
if self.idx == len(self.indices): 
self.idx = 0 
# 反 向 传播 ， 在 数据 层 并 不 进行 反 向 传播 计 售 
def backward(self, top, propagate down, bottom): 





im 


in 


pass 
# 根据 训 练 集 路 径 加 载 图 像 数据 ， 处 理 方式 与 验证 集 处 理 类 似 


def load image (self 















































, idx): 








= Image.open('í)/img/1(]).jpg'.format 
np.array(im, dtype=np.float32) 
ams n eps =] 

—= self.mean 

= in .transpose((2,0,1)) 














return in 


# 加 载 标签 数据 ， 训 练 集 comu 8m 


# 使 用 scipy 包 中 的 io.1loadmat ( 
load label (self, 


def 














函数 加 载 





x 





import scipy. io 








(self 

















mat = scipy.io.loadmat ('{}/cls/{}.mat! 
label = mat['GTcls'][0]['Segmentation'] 
label - 

return label 























# 构建 权重 核 参数 
def upsample filt(size): 
# 根据 给 定 的 size 创 建 双 线性 插值 内 核 





factor 

















// 2 








if size % 2 = ] 


= (size + 1) 








. format (self 





练 集 数 据 层 的 处 理 与 验证 集 的 基本 相同 ， 差 异 在 于 数据 的 读 取 路 





label [np.newaxis, http://www.hzcourse.com/resource/readl 


data and label.") 


th-/openresources/i 








th-/openresources/i 





Ct ct 


ach ebook/uncompressed/] 





.sbdd dir, idx)) 


.Sbdd dir, idx)) 
[0] .astype (np.uint8) 


ach ebook/uncompressed/1 











和 径 以 及 标签 数据 的 格式 不 相同 。 


ARS 








7529/0E 
7529/0E 
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7529/0E 


BPS/Text 


ae 





BPS/Text 


t/... 


nae 


Book?path-/openresources/teach ebook/uncompressed/17529/0E 





sel 











self.label 





BPS/Text/.. 














7529/0E 











BPS/Text 


xy NR 





BPS/Text 


eee 


， 与 验证 集 不 同 的 是 标注 使 用 的 是 mat 格 式 的 文件 存储 。SBD (Semantic Boundaries Dataset， 语 义 边 


Book?path=/openresources/teach ebook/uncompressed/17529/OE 





数据 层 将 指定 文件 中 的 数据 全 部 进行 加 载 ， 将 图 像 数 据 做 初步 处 理 ， 并 随机 打 乱 图 像 和 标签 对 数据 。 在 前 向 传播 函数 中 以 一 组 图 像 与 标签 对 作为 基本 单位 进 4 


在 solve.py 文 件 中 读 入 的 验证 集 文件 与 val.prototxt 文 件 中 的 验证 集 文件 相同 ， 因 此 在 val.prototxt 中 没有 进行 随机 排序 的 参数 输入 ， 图 像 与 标签 数 据 仍然 匹配 。 


界 数据 集 ) 作为 Pascal 数 据 集 的 


self.data 





h Fh 








self.label 
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需要 上 自 定 义 辅助 函数 实现 。 


具体 代码 如 下 所 示 : 


.] 


.] 


J 输出 ， 并 指定 下 一 组 输出 的 目标 。 


一 部 分 常用 来 做 语 





center = factor - ] 
m 














enter = factor - 0.5 
# 8 numpy te ogridi 数 生 成 具有 二 维 网 格 结构 的 变量 
og = np.ogrid[:size, size] 
# 根据 二 维 网 格 结构 中 的 序号 生成 列 向 量 和 行 向 量 
# (size,1) 规模 的 列 向 量 与 (1, size) 规模 的 行 向 量 相 乘 
# ud (Size size) 规模 的 矩阵 
retu - abs(og[0] - center) / factor) * (1 - abs(og[1] - center) / factor) 
HERI RPE IE LORE 
def interp(net, layers): 
for 1 in layers: 

















































































































m, k, h, w = net.params[1] [0] .data.shape 
if m != k and k != 1: 
print ‘input + output channels need to be the same or |output| == 1' 
raise 
if h != w: 
print 'filters need to be square' 
raise 
filt = upsample filt (h) 
net.params[1][0].data[range (m), range(k), :, :] = filt 














在 验证 集 测 试 阶段 使 用 score.py 中 的 函数 对 验证 集 上 平均 损失 值 进行 计算 。fast_hist 函 数 用 于 构建 (21, 21) 维 的 分 类 统计 图 ， 该 函数 调用 numpy.bincount 函 数 以 构建 统计 数组 ， 其 中 第 一 个 参数 将 
网 络 输出 标签 存放 在 二 维 统计 图 中 对 应 位 置 ， 第 二 个 参数 n**2 表 示 统 计数 组 的 条 目 为 n 的 平方 。 在 (21，21) 维 矩 阵 对 角 线 上 的 值 为 统计 结果 中 分 类 正确 的 像素 的 值 。numpy 包 中 数组 的 存放 形式 与 C 语 言 
类 似 ， 二 维 数组 按 行 存储 ， 因 此 在 构建 统计 结果 数组 时 ， 预 测 结果 与 对 应 的 行 起 始 值 相 加 才能 对 应 至 统计 数组 的 实际 结果 。 





























Score.py 
from Future — import division 
import t caffe 

import numpy as np 

import os 

import sys 





from datetime import datetime 
from PIL import Image 
# a 是 实际 标签 ，b 是 输出 标签 ，n 是 输入 图 像 通道 数 21 
# 输出 是 (21, 21) 维 的 分 类 统计 图 
def fast hist(a, b, n): 
k = (a >= 0) & (a < n) 
return np.bincount(n * a[k].astype(int) + b[k], minlength=n**2) .reshape(n, n) 
# 计算 验证 集中 的 分 类 统计 图 总 和 及 平均 损失 值 
def compute hist(net, save dir, dataset, layer-'score', gt='label'): 
n cl = net.blobs[layer].channels 
if save dir: 
os.mkdir (save dir) 
hist = np.zeros((n cl, n _cl)) 
loss = 0 
for idx in dataset: 
+ 网 络 前 向 传播 ， 实 参 调 用 使 用 验证 集 
net. forward () 
hist += fast hist (net.blobs[gt].data[0, 0].flatten(), 














































































































































































































net.blobs [layer] .data[0].argmax(0).flatten(), 
n cl) 

if save dir: 
im = Image. fromarray ( 











net.blobs [layer] .data[0].argmax (0) . De mode-'P') 
im.save(os.path.join(save dir, idx + '.png')) 
# 损失 值 从 损失 层 中 获取 
loss += net.blobs['loss'].data.flat[0] 
return hist, loss / len(dataset 
# 进行 分 割 测试 的 主 函 数 ， 该 函数 调用 qo_seg_ tests () 函数 
def seg tests(solver, save format, dataset, layer-'score', gt-'label'): 
print '>>>', datetime.now(), 'Begin seg tests' 
solver.test nets[0].share with (solver.net 
do seg tests (solver.test nets[0], solver.iter, save format, dataset, layer, gt) 
# 计 THRE. 整体 精确 率 及 每 - 类 别 的 精确 率 、 交 并 比 IU 
def do seg tests(net, iter, save format, dataset, layer-'score', gt-'label'): 
n cl = net.blobs[layer] .channels 
if save format: 
save format = save format.format (iter) 
hist, loss = compute hist(net, save format, dataset, layer, gt) 
# 平均 损失 计算 i E 
print '>>>', datetime.now(), 'Iteration', iter, 'loss', loss 
# 整体 精确 率 计 入 
# hist 对 角 线 元 素 和 / hist 元 素 总 和 
# 从 fast hist 计 算 方法 可 知 ， 对 角 线 上 的 值 为 分 类 正确 的 像素 的 值 
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# TP / ALL 
acc = np.diag(hist).sum() / hist.sum() 
print '>>>', datetime.now(), 'Iteration', iter, 'overall accuracy', acc 








# 每 一 类 别 的 精确 率 

# hist 对 角 线 值 / hist 中 行 和 

# 每 一 行进 行 计算 TP / (TP+FN) 

acc = np.diag (hist) / hist.sum(1) 

print '>>>', datetime.now(), 'Iteration', iter, 'mean accuracy', np.nanmean (acc) 
4 交 并 比 IU (Intersection over Union) 

# TP / (TP+FP+FN) 
iu = np.diag(hist) / (hist.sum(1) + hist.sum(0) - np.diag (hist) ) 





















































































































































print '>>>', datetime.now(), 'Iteration', iter, 'mean IU', np.nanmean (iu) 

# WU 

freq = hist.sum(1) / hist.sum() 

print '>>>', datetime.now(), 'Iteration', iter, 'fwavacc', (freq[freq > 0] * iu[freq > 0]).sum() 
return hist 





以 上 则 为 FCN-8s 网 络 








集 测试 的 相关 代码 介 型 “fcn8s-heavy-pascal.caffemodel” (官网 下 载 ) 进行 单 张 图 片 的 分 割 实 验 ， 并 输出 预测 类 别 。 
(2) 测试 


infer.py 为 单 张 图 片 分 割 测试 主 文 件 ， 读 入 测试 图 片 ， 前 向 传播 并 输出 网 络 分 割 结果 。 使 用 deploy.prototxt 文 件 进行 网 络 构建 ， 然 后 使 用 Caffe 模 块 中 的 Net 函 
pascal.caffemodel 进 行 网 络 初始 化 ， 输 出 网 络 中 的 score 层 ， M uuu Ic 





黄 型 fcn8s-heavy- 





infer.py 
import numpy as np 
from PIL import Image 






































import matplotlib.pyplot as plt 
1 
import c 














# Mvoc > py 文件 中 导入 Voc 类 
from voc helper import Voc 

# 加 载 测 试图 片 ， 并 将 RGB 转 换 为 BGR 图 像 ， 训 练 集中 也 是 BGR 图 像 
# 图 像 初始 设置 与 训练 集 设置 方法 一 致 

fim = Image.open('2008 000026.jpg') 

im = Image.open(' 2008 000082.jpg') 
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in - np.array (im, dtype-np.float32) 
in uvm [zz zy pro] 
um == ea array ((104.00698793,116.66876762,122.67891434) ) 


. transpose ((2,0,1)) 
n “mD W AE BI] PARAR A 























































































































net = caffe.Net('voc-fcn8s/deploy.prototxt', 

' VOC- fen8s/fcn8s-heavy-pascal.caffemodel', 

e.TEST) 

# Do TT 
net.blobs['data'].reshape(1, *in .shape) 
net.blobs['data'].data [http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17529/OEBPS/Text/...] = in. 
# 网 络 前 向 传播 ， YE. 的 最 大 预测 类 别 
net.forward() 
out = net.blobs['score'].data[0] .argmax (axis=0) 
out-out.astype (np.uint8) 





# 声明 一 个 测试 对 象 Lestobject 
testobject = Voc() 
# 使 用 测试 对 象 调用 plotipalette 函 数 输出 分 割 图 ， 并 存储 分 割 图 
abel im=testobject. plotpalette (out) 

labelim. show () 
flabelim.save('2008 000026 out.png') 
labelim.save('2008 000082 out.png') 

# 使 用 测试 对 象 调用 printclasses 函 数 输出 图 像 中 包含 的 类 别 


testobject.printclasses (out) 





















































voc helper.py 中 仅 包含 一 个 Voc 类 ， 类 中 的 plotpalette 函 数 将 分 割 输出 的 类 别 按 照 颜 色 模 板 进行 分 割 结果 输出 ，printclasses 函 数 输出 类 别名 称 。 





voc helper.py 
import os 
import Copy 
import s 
import np 
# 导入 图 像 处 音 的 相关 包 
from PIL import Image 
# 声明 类 别 
class Voc: 
# 初始 化 函数 
def init (self): 
# 类 别 标签 
self.classes = Lo cum ng 'bicycle', 'bird', 'boat', 
'bottle', 'bus', 'car', 'cat', 'chair', os 
ee cere 7 ack ; "horse!, 'motorbike', 'person', 

ottedplant', 'sheep', 'sofa', 'train', 'tvmonitor'] 
# 构建 类 别 对 应 的 颜色 模板 ， 与 ground truth 中 的 颜色 模板 相同 
palette=[] 
for i in range (256): 
palette.extend((i,i,i)) 
palette[:3*21] = np.array( 
[[0, 0, O] 128, 0,. 0], [0, 128, 0]; [128, 128, 01, [O, 0; 128], 
[ 
[ 
[ 










































































r Í 
128, 0, 128], [0, 128, 128], [128, 128, 128], [64, 0, 0], [192, 0, 0], 
64, 128, 0], [192, 128, 0], [64, 0, 128], [192, 0, 128], [64, 128, 128], 
192,128, 128], [0, 64,0], [128, 64,0], [0,192,0], [128,192,0], [0, 64, 128]], 
oe aint8") . flatten () 

self ette=palette 
# 将 颜色 模板 绘制 在 畏 出 结果 上 
def pl otpalet te(self, label im): 
if label im.ndim == E 
label im - label im[0] 
label - Image. fromarray (label im, mode-'P') 
label .show () 
label.putpalette (self.palette) 

return label 
# 将 输出 结果 中 包含 的 类 别 输出 
def printclasses(self,label im): 

if label im.ndim = 3: ` 
label im = label im[0] 
classname-np.unique(label im) 
print('The picture contains category:') 
for i in classname: 

print (self.classes[i]) 
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3.34 实验 结果 与 结论 


上 一 节 介 绍 了 程序 实现 ， 下 面 开 始 分 析 FCN-8s 网 络 的 实验 结果 。 该 实验 环境 为 Ubuntu14.04， 硬 件 配置 是 PC 处 理 器 Intel Core i7-3770， 主 频 为 3.40GHz， 内 存 为 8GB。 
(1) 实验 运行 
在 终端 中 首先 进入 程序 所 在 的 文件 夹 ， 输 入 python solve.py， 训 练 网 络 开 始 运 行 ， 运 行 界面 如 图 3-25 所 示 ， 程 序 首先 打印 输出 提前 设置 好 的 各 项 参数 值 ， 然 后 开始 迭代 训练 。 


I0825 18:35:52.245316 2338 solver.cpp:218] Iteration © (4.86843e+30 iter/s, 33.076s/20 iters), loss = 46270.3 
10825 18:35:52.245358 2338 solver.cpp:237] Train net output #0: loss = 46270.3 (* 1 = 46270.3 loss) 

10825 18:35:52.245371 2338 sgd solver.cpp:105] Iteration 0, lr = 1e-14 

10825 18:47:33.536607 2338 solver.cpp:218] Iteration 20 (0.0285188 iter/s, 701.291s/20 iters), loss = 19367.2 
10825 18:47:33.536653 2338 solver.cpp:237] Train net output #0: loss = 30489.2 (* 1 = 30489.2 loss) 

10825 18:47:33.536666 2338 sgd solver.cpp:105] Iteration 20, lr = 1e-14 

10825 18:59:05.431151 2338 solver.cpp:218] Iteration 40 (0.0289062 iter/s, 691.894s/20 iters), loss = 15401 
I0825 18:59:05.431191 2338 solver.cpp:237] Train net output #0: loss = 7151.64 (* 1 = 7151.64 loss) 

I0825 18:59:05.431201 2338 sgd solver.cpp:105] Iteration 40, lr - 1e-14 

I0825 19:10:24.847028 2338 solver.cpp:218] Iteration 60 (0.0294371 iter/s, 679.415s/20 iters), loss = 16378.7 
I0825 19:10:24.847065 2338 solver.cpp:237] Train net output #0: loss = 12270.5 (* 1 = 12270.5 loss) 

I0825 19:10:24.847076 2338 sgd solver.cpp:105] Iteration 60, lr - 1e-14 

10825 19:21:54.983772 2338 solver.cpp:218] Iteration 80 (0.0289798 iter/s, 690.136s/20 iters), loss = 17280.3 
I0825 19:21:54.983809 2338 solver.cpp:237] Train net output #0: loss = 33527.9 (* 1 = 33527.9 loss) 

I0825 19:21:54.983819 2338 sgd_solver.cpp:105] Iteration 80, lr = 1e-14 

10825 19:33:30.169658 2338 solver.cpp:218] Iteration 100 (0.0287693 iter/s, 695.185s/20 iters), loss - 12863.5 
I0825 19:33:30.169697 2338 solver.cpp:237] Train net output #0: loss = 19067.4 (* 1 = 19067.4 loss) 

I0825 19:33:30.169708 2338 sgd_solver.cpp:105] Iteration 100, lr = 1e-14 

I0825 19:45:12.805622 2338 solver.cpp:218] Iteration 120 (0.0284643 iter/s, 702.635s/20 iters), loss - 16532.7 
I0825 19:45:12.805665 2338 solver.cpp:237] Train net output #0: loss = 8413.61 (* 1 = 8413.61 loss) 

I0825 19:45:12.805675 2338 sgd solver.cpp:105] Iteration 120, lr = 1e-14 

I0825 19:56:44.879199 2338 solver.cpp:218] Iteration 140 (0.0288987 iter/s, 692.073s/20 iters), loss - 16672.9 
10825 19:56:44.879266 2338 solver.cpp:237] Train net output #0: loss = 25596.5 (* 1 = 25596.5 loss) 

10825 19:56:44.879282 2338 sgd_solver.cpp:105] Iteration 140, lr = 1e-14 

10825 20:08:05.304075 2338 solver.cpp:218] Iteration 160 (0.0293934 iter/s, 680.424s/20 iters), loss = 23924.8 
10825 20:08:05.304114 2338 solver.cpp:237] Train net output #0: loss = 8093.82 (* 1 = 8093.82 loss) 

10825 20:08:05.304124 2338 sgd solver.cpp:105] Iteration 160, lr = 1e-14 

I0825 20:19:45.700791 2338 solver.cpp:218] Iteration 180 (0.0285553 iter/s, 700.396s/20 iters), loss - 14498.5 
10825 20:19:45.700834 2338 solver.cpp:237] Train net output #0: loss = 28428.4 (* 1 = 28428.4 loss) 

I0825 20:19:45.700845 2338 sgd_solver.cpp:105] Iteration 180, lr = 1e-14 

10825 20:31:14.919340 2338 solver.cpp:218] Iteration 200 (0.0290184 iter/s, 689.218s/20 iters), loss = 20254.5 
10825 20:31:14.919379 2338 solver.cpp:237] Train net output #0: loss = 12352.8 (* 1 = 12352.8 loss) 

10825 20:31:14.919390 2338 sgd solver.cpp:105] Iteration 200, lr = 1e-14 

10825 20:42:34.947803 2338 solver.cpp:218] Iteration 220 (0.0294106 iter/s, 680.028s/20 iters), loss = 19494.4 
10825 20:42:34.947842 2338 solver.cpp:237] Train net output #0: Loss = 17300.5 (* 1 = 17300.5 loss) 

10825 20:42:34.947852 2338 sgd solver.cpp:105] Iteration 220, lr = 1e-14 

10825 20:54:07.413017 2338 solver.cpp:218] Iteration 240 (0.0288823 iter/s, 692.465s/20 iters), loss = 18842.7 
10825 20:54:07.413058 2338 solver.cpp:237] Train net output #0: loss = 17041.7 (* 1 = 17041.7 loss) 

10825 20:54:07.413067 2338 sgd_solver.cpp:105] Iteration 240, lr = 1e-14 

10825 21:05:52.695711 2338 solver.cpp:218] Iteration 260 (0.0283575 iter/s, 705.282s/20 iters), loss = 18100.3 
10825 21:05:52.695751 2338 solver.cpp:237] Train net output #0: loss = 26896.9 (* 1 = 26896.9 loss) 

10825 21:05:52.695761 2338 sgd solver.cpp:105] Iteration 260, lr = 1e-14 


图 3-25 ”FCN-8s 训 练 图 


(2) 实验 结果 图 


输入 python infer.py， 执 行 单 张 图 片 分 割 实验 。 本 实例 中 使 用 训练 好 的 网 络 模型 对 图 片 进行 分 着 ， 选 择 2008_000026.jpg 和 2008_000082.jpg 为 分 割 目标 ， 实 验 结果 分 别 如 图 3-26 和 图 3-27 所 示 。 


Mid 





2008 000020 2008 000026 ground truth 2008 000026 out 


I0818 21:23:37.844424 4028 net.cpp:744] Ignoring source layer data 

I0818 21:23:37.844451 4028 net.cpp:744] Ignoring source layer data data 0 split 
I0818 21:23:37.921537 4028 net.cpp:744] Ignoring source layer drop6 

I0818 21:23:37.932371 4028 net.cpp:744] Ignoring source layer drop? 

I0818 21:23:37.932636 4028 net.cpp:744] Ignoring source layer loss 

The picture contains category: 
background 

dog 

person 


图 3-26 2008 000026.jpg77 3] 3t| 3X 25 £ 


2008 000082 2008 000082 ground truth 2008 000082 out 


I0818 21:25:17.148129 4096 net.cpp:744] Ignoring source layer data 

I0818 21:25:17.148164 4096 net.cpp:744] Ignoring source layer data data © split 
I0818 21:25:17.225929 4096 net.cpp:744] Ignoring source layer drop6 

I0818 21:25:17.236927 4096 net.cpp:744] Ignoring source layer drop? 

I0818 21:25:17.237195 4096 net.cpp:744] Ignoring source layer loss 

The picture contains category: 

background 

motorbike 

person 





图 3-27 2008_000082.jpe2-2|2 K 2 x 


从 分 割 实 验 结果 图 中 可 以 看 出 ，FCN 能 够 在 多 目标 场景 中 对 多 种 目标 同时 进行 分 割 ， 在 多 目标 边缘 (如 2008_000026 中 小 狗 的 边缘 ) 以 及 复杂 场景 中 目标 分 割 (如 2008_000082 中 的 船 ) 的 能 力 仍 有 待 


第 4 章 ” Torch 深度 学 习 框 架 搭 建 与 目标 检测 的 实现 


本 章 主要 通过 三 个 部 分 介绍 Torch 深 度 学 习 框架 ， 第 一 部 分 首先 介绍 Torch 深 度 学 习 框 架 的 基础 知识 ， 然 后 介绍 Torch 深 度 学 习 框架 中 使 用 的 主要 语言 Lua; 第 二 部 分 介绍 Torch 框 架 的 安装 过 程 ;第 三 音 
分 以 一 个 具体 的 目标 检测 实例 为 出 发 点 ， 首 先 介绍 了 Torch 的 类 和 包 的 用 法 ， 接 着 介绍 构建 神经 网 络 的 过 程 ， 最 后 介绍 Faster R-CNN 及 其 实例 。 


41 Torch 概 术 


本 节 主 要 介绍 Torch 的 基础 知识 及 特征 。 由 于 Torch 中 使 用 的 Lua 语 言 对 初学 者 比较 陌生 ， 所 以 又 增加 了 一 节 用 来 介绍 Lua 语 言 的 基础 知识 ， 为 后 面 的 内 容 做 一 个 铺垫 。 


4.1.1 Torch 的 特点 
Torch 是 由 Facebook 公 司 开 发 的 一 个 广泛 支持 机 器 学 习 算 法 的 科学 计算 框架 ， 该 框架 主要 使 用 GPU 进行 科学 计算 。Torch 使 用 简单 快速 的 脚本 语言 LuaJIT 以 及 底层 的 C/CUDA 进 行 实 现 ， 因 此 易于 使 用 
且 高 效 。 


Torch 的 目标 是 : 让 用 户 在 使 用 该 框架 构建 科学 算法 的 过 程 中 能 够 拥有 最 大 的 灵活 性 和 速度 ， 同 时 使 构建 科学 算法 的 过 程 变 得 简单 。Torch 在 机 器 学 习 、 计 算 机 视觉、 信号 处 理 、 并 行 处 理 、 图 像 处 理 等 
方面 拥有 一 个 大 型 的 资源 包 ， 并 建立 在 Lua 之 上 。 


Torch 的 核心 是 当下 流行 的 神经 网 络 和 优化 库 ， 在 实现 复杂 的 神经 网 络 拓扑 方面 Torch 不 仅 易 于 使 用 ， 而 且 具 有 最 大 的 灵活 性 。 在 Torch 中 可 以 构建 神经 网 络 的 任意 模型 ， 并 以 高 效 的 方式 并 行 化 CPU 和 
GPU。 目 前 Torch 在 许多 学 校 的 实验 室 以 及 在 Google、Twitter、NVIDIA、AMD、lntel 等 公司 大 量 使 用 。 


接 下 来 介绍 一 下 Torch 的 核心 特征 。 


1) 拥有 强大 的 n 维 数组 。Torch 中 唯一 的 数据 结构 就 是 Tensor， 其 实 就 是 多 维和 矩 阵 ， 支 持 和 矩阵 的 各 种 操作 。 该 结构 简洁 并 且 强 大 ， 非 常 适合 进行 矩阵 类 的 数值 计算 。 这 里 需要 强调 Lua 中 的 数组 下 标 是 
从 1 开始 的 ， 因 此 Tensor 对 象 的 下 标 也 是 从 1 开始 。 


2) 提供 很 多 实现 索引 、 切 片 的 例 程 。Torch 中 内 置 了 很 多 索引 、 切 片 的 例 程 以 方便 调用 ， 使 用 者 在 不 知道 内 部 原理 的 前 提 下 也 可 以 快速 得 到 想 要 的 结果 。 


3) 通过 LuaJIT 向 C 提 供 了 强大 的 接口 。LuaJIT 是 采用 C 语 言 写 的 Lua 代 码 的 解释 器 。LuaJIT 保 留 了 Lua 的 轻 量 级 、 高 效 和 可 扩展 的 特点 。LuaJIT 兼 容 Lua5.1， 而 且 接 受 同样 的 源 代码 或 预 编译 字 节 码 ， 支 
持 所 有 标准 语言 的 语义 。 


4) 提供 线性 代数 例 程 。 通 过 线性 代数 例 程 可 以 对 向 量 、 向 量 空间 、 线 性 变换 和 有 限 维 的 线性 方程 组 进行 操作 。 由 于 科学 研究 中 的 非 线 性 模型 通常 可 以 被 近似 为 线性 模型 ， 使 得 线性 代数 被 广泛 地 应 用 于 
科学 研究 中 。 


5) 提供 神经 网 络 模型 。Torch 提 供 了 神经 网 络 包 nn ， 使 用 该 神经 网 络 包 可 以 方便 地 构建 神经 网 络 模型 ， 并 执行 相关 的 操作 。 
6) 提供 数值 优化 例 程 。 数 值 优化 通过 迭代 的 方式 解决 优化 问题 ， 是 数学 建 模 中 关键 的 一 环 。 建 模 过 程 需要 确定 优化 目标 、 目 标 所 依赖 的 变量 以 及 变量 之 间 的 约束 关系 ， 最 后 通过 优化 算法 解决 问题 。 
7) 快速 高 效 的 GPU 支持 。Torch 中 有 CUDA 的 对 应 实现 ， 可 以 在 NVIDIA GPU 上 进行 相关 的 运算 。 


8) 可 嵌入 、 可 移植 到 iOS、Android 等 的 后 人 台 。 方 便 嵌 入 到 后 台 可 以 避免 开发 者 重复 编写 代码 ， 大 大 增加 开发 的 效率 。 


4.1.2 ”Lua 语言 


在 介绍 完 Torch 之 后 有 必要 介绍 一 下 Lua 语 言 ， 因 为 Torch 中 的 主要 语言 是 Lua 脚 本 语言 。Lua 是 一 个 小 巧 的 脚本 语言 ， 由 巴西 里 约 热 内 卢 天 主教 大 学 (Pontifical Catholic University of Rio de 
Janeiro) 的 一 个 研究 小 组 于 1993 年 开发 。Lua 的 设计 目的 是 为 了 庶 入 应 用 程序 中 ， 从 而 为 应 用 程序 提供 灵活 的 扩展 和 定制 功能 。Lua 由 标准 C 编 写 而 成 ， 几 乎 在 所 有 操作 系统 和 平台 上 都 可 以 编译 、 运 行 。 
Lua 并 没有 提供 强大 的 库 ， 所 以 Lua 不 适合 作为 开发 独立 应 用 程序 的 语言 。Lua 有 一 个 同时 进行 的 JIT 项 目 ， 提 供 在 特定 平台 上 的 即时 编译 功能 。 


Lua 脚 本 可 以 很 容易 地 被 C/C++ 代码 调用 ， 也 可 以 有 反 过 来 调用 C/C++ 遂 数 ， 这 使 得 Lua 在 应 用 程序 中 可 以 被 广泛 应 用 。Lua 既 可 作为 扩展 脚本 ， 也 可 以 作为 普通 的 配置 文件 ， 代 蔡 XML、|INI 等 文件 格 
式 ， 并 且 更 容易 理解 和 维护 。 一 个 完整 的 Lua 解 释 器 不 超过 200KB， 在 目前 所 有 脚本 引擎 中 ，Lua 的 速度 是 最 快 的 。 这 一 切 都 决定 了 Lua 是 作为 嵌入 式 脚 本 的 最 佳 选择 。 


Lua 语 言 有 如 下 特性 : 

1) 轻 量 级 。 它 用 标准 C 语 言 编 写 并 以 源 代码 形式 开放 ， 编 译 后 仅 一 百 余 KB， 可 以 很 方便 地 嵌入 到 别 的 程序 中 。 

2) 可 扩展 。Lua 提 供 了 易于 使 用 的 扩展 接口 和 机 制 ， 由 宿主 语言 (通常 是 C 或 C++) 提供 这 些 功 能 ，Lua 可 以 像 是 使 用 内 置 的 功能 一 样 使 用 它们 。 

3) 支持 面向 过 程 (Procedure-Oriented) 编程 和 函数 式 编 程 (Functional Programming) 。 

4) 自动 内 存 管理 。Lua 只 提供 了 一 种 通用 类 型 的 表 (Table) ， 用 它 可 以 实现 数组 、 散 列表 、 集 合 、 对 象 。 

5) 闭 包 (Closure) 。 通 过 闭 包 可 以 很 方便 地 支持 面向 对 象 编程 所 需要 的 一 些 关 键 机 制 ， 比 如 数据 抽象 、 虚 函数 、 继 承 和 重 载 等 。 

Lua 的 应 用 场景 包括 : 游戏 开发 ， 独 立 应 用 脚本 ; Web 应 用 脚本 ; 扩展 和 数据 库 插件 ， 如 MySQL Proxy 和 MySQL WorKBench; 安全 系统 ， 如 入 侵 检测 系统 。 
大 致 了 解 Lua 的 起 源 、 特 性 及 应 用 场景 之 后 ， 下 面 介绍 一 下 Lua 的 基本 用 法 。 

(1) Lua 提 供 两 种 编程 模式 

第 一 种 是 交互 式 编程 模式 ， 可 以 在 命令 行 中 输入 程序 并 立即 查看 效果 ， 可 以 通过 命令 Iua-i 或 lua 来 启用 该 编程 模式 。 

第 二 种 是 脚本 式 编程 模式 ， 可 以 将 Lua 程 序 代 码 保存 到 一 个 以 lua 结 尾 的 文件 并 执行 。 例 如 将 代码 存储 在 名 为 hello.lua 的 脚本 文件 中 ， 使 用 lua 名 执行 该 脚本 ($th hello.lua) 就 可 以 得 到 输出 结果 。 
(2) Lua 的 数据 类 型 


Lua 是 动态 类 型 语言 ， 变 量 不 需要 类 型 定义 ， 只 需要 为 变量 赋值 。 存 储 在 变量 中 的 值 可 以 作为 参数 传递 或 结果 返回 。Lua 中 有 8 个 基本 类 型 ,分 别 为 nil、boolean、number、string、userdata、 


function、thread 和 table， 有 具体 描述 如 表 4-1。 


表 4-1 Lua 的 数据 类 型 与 描述 


数据 类 型 描述 














nil 只 有 值 nil 属于 该 类 ， 表 示 一 个 无 效 值 (在 条 件 表达 式 中 相当 于 false) 

boolean boolean 包含 两 个 值 : false 和 true 

number 表示 双 精 度 类 型 的 实 浮 点 数 

string 字符 串 由 一 对 双 5 引 号 或 单 引 号 来 表示 

function 由 C 或 Lua 2 HY ERI 

userdata 表示 任意 存储 在 变量 中 的 C 数据 结构 

thread 表示 执行 的 独立 线路 ， 用 于 执行 协同 程序 

‘ible Lua 中 的 表 其 实 是 -个 关联 数组 ， 数组 的 索引 可 以 是 数字 或 者 是 字符 嘻 。 在 Lua 中 ， 表 的 
创建 通过 构造 表达 式 来 完成 ， 最 简单 的 构造 表达 式 是 {} ， 即 用 来 创建 一 个 空 表 。 


(3) Lua 变 量 

变量 在 使 用 前 ， 必 须 在 代码 中 进行 声明 ， 即 创建 该 变量 。 编 译 程序 执行 代码 之 前 ,编译 器 需要 知道 如 何 给 变量 语句 开辟 存储 区 ， 用 于 存储 变量 的 值 。 

Lua 变 量 有 两 种 类 型 : 全 局 变量 和 局 部 变量 。Lua 变 量 默 认 是 全 局 变量 ,特殊 的 情况 用 local 显 式 声明 为 局 部 变量 。 局 部 变量 的 作用 域 为 从 声明 位 置 开始 到 所 在 语句 块 结束 。 变 量 的 默认 值 均 为 nil。 
(4) Lua 循 环 

Lua 语 言 提供 了 以 下 几 种 循环 处 理 方式 ， 如 表 4-2 所 示 。 


表 4-2 ”Lua 循环 类 型 与 描述 


循环 类 型 描述 
while 循环 在 条 件 为 true 时 ， 让 程序 重复 地 执行 某 些 语句 。 执 行 语 句 前 会 先 检查 条 件 是 否 为 true 
for 循环 HRT EW A, ERU TE for 语句 中 控制 
repeat...until 重复 执行 循环 ， 直 到 指定 的 条 件 为 真 时 停止 循环 
f PECES 可 以 在 循环 内 上 般 套 一 个 或 多 个 循环 语句 (while. for) 


(5) Lua 函 数 


在 Lua 中 ， 逊 数 是 对 语句 和 表达 式 进 行 抽象 的 主要 方法 ， 既 可 以 用 来 处 理 一 些 指定 的 工作 ， 也 可 以 用 来 计算 并 返回 值 。Lua 提 供 了 许多 内 建 浮 数 ， 可 以 很 方便 地 在 程序 中 调用 它们 ， 如 print0) 函 数 可 以 将 
传 入 的 参数 打印 在 控制 台 上 。 


Lua 函 数 主 要 有 两 种 用 途 : 
1) 完成 指定 的 任务 ， 这 种 情况 下 函数 作为 调用 语句 使 用 。 
2) 计算 并 返回 值 ， 这 种 情况 下 函数 作为 赋值 语句 的 表达 式 使 用 。 


Lua 的 基本 语法 就 介绍 到 这 里 ， 这 些 为 后 面 实例 指导 打下 基础 ， 如 果 需 要 学 习 Lua 的 全 部 基本 语法 可 以 参考 Lua 的 相关 教程 。 


42 Torch 框 架 安 和 凌 


Torch 要 求 的 安装 环境 为 Mac OS X 和 Ubuntu 12+ ， 下 面 的 步骤 是 在 Mac OS X 和 Ubuntu 12+ 上 的 Torch 安 装 过 程 。 


1) 在 终端 界面 中 依次 输入 下 面 三 行 命令 (各 命令 界面 见 图 4-1 至 图 4-4， 注 意 第 二 行 命令 安装 的 是 Torch 的 LuaJIT， 如 果 需 要 安装 Torch 的 Lua 5.2 请 跳 转 至 第 4 步 ) : 











git clone https://github.com/torch/distro.git ~/torch --recursive 
cd ~/torch; bash install-deps; 
./install.sh 











:~$ clear 
:=S git clone https://github.com/torch/dis 





tro. n -[torch --recursive 

IEEE ' ih '. 

ee * MM objects: 1580, done. 

remote: Total 1580 (delta 0), reused 0 (delta 0), pack-reused 1580 
FIM NTA: 100% (1580/1580), 333.14 KiB | 5.08 KiB/s, Ak 

Es delta m: 100% (916/916), ÆA 

Ay eee JOA 

IRA 'exe/env' (https://github.com/torch/env.git) 未 对 路 径 ET 注册 

子 模 组 'exe/luajit-rocks' Eo. ://qithub.com/torch/l<luajit-rocks.git) 未 对 路 径 ' 

exe luajit- rocks' 注册 

F248 'exe/qtlua' (https://github.com/torch/qtlua.git) FMB 'exe/qtlua' 注 


册 
子 模 组 'exe/trepl' (https://github.com/torch/trepl.git) 未 对 路 径 'exe/trepl' 注 


子 模 组 'extra/argcheck' (https://github.com/torch/argcheck.git) 未 对 路 径 'extra/ 
argcheck' 34; 

子 模 组 atun. (https://github.com/soumith/cudnn.torch.git) 未 对 路 径 'extr 
a/cudnn' £A | z 
S 'extra/cunn' (https://github.com/torch/cunn.git) FATES 'extra/cunn' 注 


rep 'extra/cutorch' (https://github.com/torch/cutorch.git) 未 对 路 径 'extra/cu 


图 4-1 终端 执行 第 一 行 命令 界面 








Emea] | ei /torch/exe/luajit-rocks'... 
下 克隆 到 | ew (torch/exe/qtlua'... 

下 克隆 到 | 和 egg /torch/exe/trepl'... 

下 克隆 到 | ei /torch/extra/argcheck'.. 

下 克隆 到 ' gyi /torch/extra/cudnn'. 


正 克隆 到 ' IER / torch/extra/cunn'... 


下 克隆 到 '--—- /torch/extra/cutorch'.. 

下 克隆 到 | eye /torch/extra/graph'... 

下 克隆 到 | eo /torch/extra/lua-cjson'... 

正 克 隆 到 | eg /torch/extra/luaffifb'... 

下 克隆 到 “Am | tor ch/ex tra /luafilesystem'.. 


图 4-2 下载 Torch 相 关 包 界面 


通过 运行 以 上 三 个 命令 ， 可 以 在 ~ /torch 中 将 Torch 安 装 到 计算 机 的 主 文件 夹 下 。 第 一 个 脚本 安装 LuaJIT 和 Torch 所 需要 的 基本 软件 包 的 依赖 。 第 二 个 脚本 安装 LuaJIT、LuaRocks， 然 后 使 用 
LuaRocks (lua 软 件 包 管理 器 ) 安装 核心 软件 包 ， 如 torch、nn 和 path 以 及 其 他 一 些 软件 包 。 


:=S cd -/torch; bash install-deps; 

[sudo] mm muy 

- http://archive.ubuntukylin.com:10006/ubuntukylin xenial InRelease 
http://cn.archive.ubuntu.com/ubuntu yakkety InRelease 
http://cn.archive.ubuntu.com/ubuntu yakkety-updates InRelease 
http://ppa.launchpad.net/notepadqq-team/notepadqq/ubuntu yakkety InRelease 
http://cn.archive.ubuntu.com/ubuntu yakkety-backports InRelease 
http://security.ubuntu.com/ubuntu yakkety-security InRelease 


软件 包 列 表 . .. 完成 


上司 i 在 在 在 全 全 


L. 
SH Hig So tn n w M 





读 取 
E d 
x 
了 析 软 件 : 

读 取 状态 信 完成 
EY = 安装 的 并 且 现 在 不 需要 了 : 


mir-platform- graphics- mesa-kmsi10 mir-platform-graphics-mesa-x10 
B platform-input-evdev5 snap- confine ubuntu-core-launcher 


sudo apt autoremove'3KT[]Zk E (E 4| ])« 


MESE * FREE 1 
on-a on-pycur 
NE um. pt py Py 


python-apt-dbg python-apt-doc libcurl4-gnutls-dev python-pycurl-dbg 
python-pycurl-doc 


图 4-3 ”终端 执行 第 二 行 命令 界面 


FÆRA libqt4-qt3support:amd64 (4:4.8.7+dfsg-7ubuntu1) 

正在 设置 libxcb-xfixes0-dev:amd64 (1.11.1-1ubuntu1) 

正在 设置 Libxdamage-dev:amd64 (1:1.1.4-2) ... 

正在 设置 libwxgtk3.0-0v5:amd64 (3.0.2+dfsg-2) 

正在 设置 python-pexpect (4.2.0-1) ... 

正在 设置 gnuplot-data (5.0.4+dfsq1-3) ... 

正在 设置 Libqt4-dev-bin (4:4.8.7+dfsg-7ubuntu1) 

正在 设置 gnuplot-x11 (5.0.4+dfsg1-3) . 

Lo alternatives: IR Jusr /bin/gnuplot- x11 来 在 自动 模式 中 提供 /usr/bin/gnuplo 


2 Rot) 
EWI libxcb-present-dev:amd64 (1.11.1- KDA EE: s 


正在 设置 libqt4-dev (4:4.8.7+dfsq-7ubuntui1) . 
正在 设置 ipython (2.4.1-1) 
正在 设置 gnuplot (5.0.4+dfsgi-3) .. 
正在 设置 libgli-mesa-dev:amd64 (Ee sa) 
正在 设置 libglul-mesa-dev:amd64 (9.0.0-2.1build1) . 
正在 设置 libqt4-opengl-dev (4:4.8.7+dfsg-7ubuntu1) . 
FAKE IP libc-bin (2.24-3ubuntu2.2) 的 触 基 
skipping install of OpenBLAS - it is already installed. 
=> Torch7's dependencies have been installed 
NN: ~ / tor ch .Jinstall.sh 
Prefix set to me / torch /install 
Installing Lua version: LUAJIT21 


图 4-4 终端 执行 第 三 行 命令 界面 
在 执行 第 三 行 命令 的 过 程 中 可 能 会 出 现 如 图 4-5 的 选择 ， 接 下 来 它 会 提示 是 否 把 Torch 加 入 bashrc 中 ， 有 " (yes/no) ”提示 , 输入 “yes” 即 可 。 


2) 第 一 步 执 行 完 之 后 ， 继 续 在 终端 输入 下 面 命令 ， 根 据 实际 情况 三 个 命令 中 选 一 个 执行 即 可 。 


# On Linux with bash 

source ~/.bashrc 

# On Linux with zsh 

source ~/ .zshrc 

# On OSX or in Linux with none of the above. 
source ~/.profile 


-- Installing: MEE / tor ch/install/lib/luarocks/rocks/threads/scm-1/lua/thread 
s/threads.lua 

-- Installing: MEE / torch/install/lib/luarocks/rocks/threads/scm-1/lua/thread 
s/sertalize. Lua 

-- Installing: HR /torch/install/lib/luarocks/rocks/threads/scm-1/1lua/thread 
s/sharedserialize.lua 

-- Installing: ME tor ch/install/lib/luarocks/rocks/threads/scm-1/lua/thread 
s/queue. lua 

-- Installing: BEE /torch/install/lib/luarocks/rocks/threads/scm-1/lua/thread 
s/safe. lua 

Updating manifest for MEEEEESN/ torch/install/lib/luarocks/rocks 

threads scm-1 is now built and installed in /torch/install/ (license: BSD 














Updating manifest for MEM torch/install/lib/luarocks/rocks 
argcheck scm-1 is now built and installed in MH torch/install/ (license: BS 


D) 


Do you want to automatically prepend the Torch install location 
to PATH and LD LIBRARY PATH in your MEE .bashrc? (yes/no) 
PC >>> 


图 4-5 Tortch 提 示 加 入 bashrc 界 面 


执行 第 一 个 命令 的 界面 如 图 4-6 所 示 。 


Updating manifest for HMM / tor ch/install/lib/luarocks/rocks 
argcheck scm-1 is now built and installed in Mamm /torch/install/ (license: BS 
D) 


Do you want to automatically prepend the Torch install location 
to PATH and LD LIBRARY PATH in your Mimgemmmm/.bashrc? (yes/no) 


[yes] >>> 

yes 

———————'«À.4 :Or source -/.bashrc 
—sñ ij; [ff 


图 4-6 ”终端 执行 第 一 个 命令 界面 
该 脚本 将 Torch 添 加 到 PATH 变量 中 ， 同 时 安装 脚本 将 检测 当前 的 shell， 并 修改 正确 配置 文件 中 的 路 径 。 


3) 如 果 想 要 卸载 Torch ， 只 需要 执行 下 面 的 一 条 命令 ， 执 行 完 之 后 Torch 文 件 夹 自动 删除 ， 如 图 4-7 所 示 。 





rm -rf ~/torch 





Do you want to automatically prepend the Torch install location 
to PATH and LD LIBRARY PATH in your mimma bashrc? (yes/no) 
[yes] >>> 

yes 

———À—:- LO r S source -/.bashrc 
———————À i rh rm -rf -/torch 
—— 11: j 


图 4-7 435 Sp XX Torch p 4- Jr mn 


4) 如 果 需 要 安装 Torch 的 Lua 5.2 而 不 是 LuaJIT， 只 需 运 行 如 下 命令 ， 如 图 4-8 和 图 4-9 所 示 。 








git clone https://github.com/torch/distro.git ~/torch --recursive 
od < Ztoreh 
./clean.sh 
TORCH LUA VERSION-LUAS2 ./install.sh 























:~9 clear 
:~$ git clone https://github.com/torch/dis 





tro.git ~/torch --recursive 
下 克隆 到 ' wawam /torch' ... 
remote: Counting objects: 1580, done. 
aes Total 1580 (delta 0), reused 0 (delta 0), pack- cee 1580 
象 中 : a (1580/1580), 333.14 KiB | 5.00 KiB/s, 
HS delta Td 100% (916/916), s 


d PEE bie " (https: //qithub.com/torch/env.git) 未 对 路 径 'exe/env' 注册 
'exe/luajit-rocks' Miem: : //github.com/torch/luajit-rocks.git) 未 对 路 径 ' 
a rocks' 注册 R 
£H 'exe/qtlua' ec //github.com/torch/qtlua.git) 未 对 路 径 'exe/qtlua' + 
学 模 组 'exe/trepl' (https://github.com/torch/trepl.git) 未 对 路 径 'exe/trepl' 注 
子 模 组 p s (https://github.com/torch/argcheck.git) 未 对 路 径 'extra/ 
check' ; 
FA ' 'extra/cudnn' (https://github.com/soumith/cudnn.torch.git) RIIE 'extr 
cudnn' ; 
BS 'extra/cunn' (https://github.com/torch/cunn.git) 未 对 路 径 'extra/cunn' ; 


子 模 组 'extra/cutorch' (https://github.com/torch/cutorch.git) 未 对 路 径 'extra/cu 


B48 ”终端 执行 第 一 行 命令 界面 





FRB is 'extra/luaffifb': wane '618ce4dc6de318c8f0eb027f052be081349097be' 
THRI 'extra/luafiles, stem': LE '3c4e563d9c140319e28c419f2710b51a2f6d6d24' 
FRB EAE 'extra/nn': fui '200ae7d55a3381a232256223c0694498f8f51df6' 

子 模 组 路 径 'extra/nngraph': 检 出 '3ed3b9ba9diadf72c1fe15291ale50b843cf04f9' 
FRB EAE 'extra/nnx': 检 出 '1c28e231f885899a4ed68266e788306cab2ac07a' 
TIBI 'extra/penlight': 检 出 '6d108e6a699fbafd5dace1019d03f4b4b18231fa' 
THRI 'extra/threads': 检 出 '7094a90be44ecdd5f9f0b90560473ad27f3bb07d' 
THRE 'pkg/cwrap': 检 出 'dbdoa623dc4dfb4b8169dsaecc6dd9aec2f22792' 

子 檬 组 路 径 'pkg/dok': 检 出 '1b36900e1bfa6ee7f48db52c577bdeb7d9e85909' 
THRE ， 'pkg/gnuplot': 检 出 'a75e6782bdd5a7aa3ed5c2a0a88b63a916472c66' 
FARBER IE 'pkg/image': 检 出 '5aa18819b6a7b44751f8a858bd232d1c07b67985' 
Tiii 'pkg/optim': wi '656c42afif996e4a5d6aae3b9aeac831ca162241' 
THRHR 'pkg/paths': 从 出 '4ebe222ba12589fb9d86c1d3895d7f509df77b6a' 
FABRE 'pkg/qttorch': 检 出 'ba5b5a143482857f80237181d5fde0a3ba20477b' 
THRI 'Pkg/sundown : StH '4324669b1adbde92cef2dbf4550428a13a03ca6f ' 
TRHMI “pkg/sys' : 检 出 'fo73f057d3fd2148866eaa0444a62ababfdf935e' 
THRI 'pkg/torch' : wit '3e9e141cediafddcad451e69f90e6e53503647ca' 
FAP 'pkg/xlua': ui '41308fe696bf8b8892f4ad4f9857d12a87a3f75e' 
i 0t ai PER ~S cd -/torch 

mmm: - 100055 . /clean.sh 
mms 一 /OrchS TORCH LUA VERSION-LUAS52 ./instaLll.sh 


Prefix set to — / Lor ch / (install 
Installing Lua version: LUA52 


图 4-9 ”终端 执行 第 二 行 至 第 四 行 命令 界面 


可 以 使 用 命令 行 中 的 Luarocks 安 装 新 软件 包 ( 见 图 4-10 和 图 4-11) 。 





$ luarocks install image 
$ luarocks list 








m:~S luarocks install image 
Installing https: /[raw.githubusercontent.com/torch/rocks/master/image-1.1.alpha-0 
.Fockspec.. 
Using https: //raw.githubusercontent.com/torch/rocks/master /image-1.1.alpha-6.rock 
spec... switching to 'build' mode 
Fma] 'image'... 
remote: Counting objects: 51, done. 
remote: Compressinq objects: 100% (48/48), done. 
remote: Total 51 (delta 3), reused 26 (delta 1), pack-reused 0 
IRA: 100% (51/51), 631.23 KiB | 105.00 KiB/s, 完成 . 
KEE delta 中 : 100% (3/3), Sem. 
检查 连接 ... 完成 。 
Warning: unnatched variable LUALIB 
cmake -E make directory build && cd build && cmake .. -DLUALIB= -DCMAKE BUILD TYP 
E-Release -DCMAKE PREFIX PATH-"/home/wu/torch/install/bin/.." -DCMAKE INSTALL PRE 
FIX-"/home/wu/torch/install/lib/luarocks/rocks/image/1.1.alpha-0" && make 


-- The C compiler identification is GNU 6.2.0 

-- The CXX compiler identification is GNU 6.2.60 

-- Check for working C compiler: /usr/bin/cc 

-- Check for working C compiler: /usr/bin/cc -- works 
-- Detecting C compiler ABI info 

-- Detecting C compiler ABI info - done 

-- Detecting C compile features 


图 4-10 终端 执行 第 一 行 命令 界面 


*-$ Luarocks list 


EEC 
Warning: Failed loading manifest for Mmeeemmemem/.luarocks/lib/luarocks/rocks: /home 
Mg/. luarocks/1lib/luarocks/rocks/manifest: No such file or directory 


Installed rocks: 


argcheck 
scm-1 (installed) - Amemememm/torch/install/lib/luarocks/rocks 


cwrap 
scm-1 (installed) - /AmmmERM/torch/install/lib/luarocks/rocks 


图 4-11 终端 执行 第 二 行 命令 界面 


5) 若 检验 Torch 是 否 安装 成 功 ， 可 以 通过 在 终端 中 输入 th 命令 ， 如 果 出 现 如 图 4-12 所 示 的 “Torch” 字样 ， 则 说 明 Torch 安 装 成 功 。 








m:~S th 


Torch7 

Scientific computing for Lua. 
Type ? for help 
https://github.com/torch 
http://torch.ch 


Hd eem pee pem A 
Fd op = MO a fz N 
Fun A ja Jape Sak Say A! 


th> i 


图 4-12 ”Torch 成 功 安 装 界面 


安装 完 Torch 之 后 ， 可 以 使 用 cd 命令 进入 执行 文件 所 在 的 目录 下 ， 使 用 th 加 上 要 运行 的 文件 并 运行 (如 $th cifar10.lua) ， 其 中 th 是 Torch 的 数据 结构 ， 实 现 了 tensor vector 等 数据 结构 ， 除 此 之 外 还 包 
括 内 存 的 管理 。 


在 Torch 中 要 退出 交互 式 会 话 ， 需 要 键入 os.exit () 。 一 旦 键入 完整 的 表达 式 ， 如 “1+2”， 并 且 按 回 车 键 ， 交 互 式 会 话 将 计算 表达 式 并 显示 其 值 3， 如 图 4-13 所 示 。 





ees wa 


| Torch7 
ton" aa etos Pera ed 7 | Scientific computing for Lua. 
PP CAP O P ON 4 Type ? for help 
IP» \ Ji XV J ff | | https://github.com/torch 
| http://torch.ch 


th» torch.Tensor{1,2,3} 

1 

2 

3 

[torch.DoubleTensor of size 3] 


[0.0116s] 
th» 1+2 
3 
[0.6001s] 
th» B 


图 4-13 ”测试 Torch 交 互 式 会 话 界面 


Torch 安 装 完 之 后 在 主 目录 之 下 会 生成 一 个 torch 文 件 夹 ( 见 图 4-14) ， 在 文件 夹 下 会 有 相应 的 文件 支持 。 


anaconda2 


keras 


PycharmProjects 














-— admin 





-— cmake 





-— extra 








nail win-files 


图 4-14 Torch xx £F cf 
下 面 的 安装 步骤 针对 GPU， 基 于 CPU 则 可 跳 过 ，GPU 下 的 安装 在 以 上 步骤 的 基础 上 继续 。 


6) 安装 CUDA。 直 接 从 官网 下 载 对 应 版 本 的 CUDA，CUDA 是 一 种 由 NVIDIA 推 出 的 通用 并 行 计 算 架 构 ， 该 架构 使 GPU 能 够 解决 复杂 的 计算 问题 。 它 包含 了 CUDA 指 令 集 架构 以 及 GPU 内 部 的 并 行 计算 
引擎 ， 如 图 4-15 所 示 。 


Select [arget Platform @ 





Click on the green buttons that describe your target platform. Only supported platforms will be shown. 






Operating System 

Architecture @ x86_ bd 

Distribution OpenSUSE CentOS 
Version 

Installer Type @ runfile [local] | deb [network] cluster [local] 








Download Installers for Linux Ubuntu 16.04 x86 64 





The base installer is available for download below. 


There is 1 patch available. This patch requires the base installer to be installed first. 


> Base Installer Download [1.9 GB] £, 


Installation Instructions: 


1. sudo dpkg -i cuda-repo-ubuntulà04-8-0-local-ga2 8.0.61- 
1 amdéA.deb 
2 sudo apt-get update ` 


3. sudo apt-get install cuda ` 
* Patch 2 [Released Jun 26, 2017] Download [121 á MB) £ 


cuBLAS Patch Update to CUDA 8: Includes performance enhancements and 


bug-fixes 





The CUDA Toolkit contains Open-Source Software. The source code can be found here. 
The checksums for the installer and patches can be found in Installer Checksums. 
For further information, see the Installation Guide for Linux and the CUDA Quick Start Guide. 


图 4-15 ”下载 CUDA 界 面 
直接 双击 下 载 的 deb 文 件 并 安装 。deb 文 件 安装 完 之 后 ， 还 需要 通过 命令 行 来 安装 CUDA 的 附加 库 。 在 终端 执行 下 面 两 行 命令 ( 见 图 4-16) 。 


sudo apt-get update 
sudo apt-get install cuda 


——— sudo apt-get install cuda 





图 4-16 ”安装 CUDA 界 面 
上 面 的 语句 apt-get 会 根据 deb 文 件 的 CUDA 不 同 版 本 而 安装 相应 的 库 。 安 装 完 之 后 可 以 使 用 命令 nvidia-smi 来 测试 安装 是 否 成 功 ， 如 果 出 现 显 卡 配置 信息 则 说 明 安 装 成 功 。 


7) 安装 Torch 的 CUDA 支 持 。 在 第 6 步 中 安装 的 CUDA 是 所 有 程序 框架 都 可 以 使 用 的 通用 版 本 。 但 是 Torch 使 用 CUDA 还 需要 安装 两 个 库 即 cutorch 和 cunn。 其 中 cutorch 的 作用 是 在 Torch 上 能 使 用 


GPU， 而 cunn 是 专门 针对 神经 网 络 的 库 ， 作 用 是 使 神经 网 络 运行 于 GPU 之 上 。 执 行 以 下 两 行 命令 可 以 实现 安装 ( 见 图 4-17) 。 





luarocks install cutorch 
luarocks install cunn 




















6 luarocks install cutorch 

Installing https: //raw.qithubusercontent.com/torch/rocks/master/cutorch-scm-1.roc 
kspec... 
Using https://raw.githubusercontent.com/torch/rocks/master/cutorch-scm-1.rockspec 
ae switching to 'build' mode 
正 克 隆 到 “'cutorch' . . . 
remote: Counting objects: 229, done. 
remote: Compressinq objects: 100% (183/183), done. 
EIER ze geh 229 (delta 62), reused 90 (delta 44), pack-reused 日 
REY FH: 100% (229/229), 248.57 KiB | 368.00 KiB/s, Sch. 

MIB A x rh: 100% (62/62), ZÈ. 
检查 连接 . . . 完成 。 


Warning: unmatched variable LUALIB 
jopts-S(getconf  NPROCESSORS CONF) 


echo "Building on $jopts cores" 

cmake -E make directory build && cd build && cmake .. -DLUALIB- -DLUA INCDIR-/hom 
e/wu/torch/install/include -DCMAKE CXX FLAGS=${CMAKE CXX FLAGS} -DCMAKE BUILD TYP 
E-Release -DCMAKE PREFIX PATH-"/home/wu/torch/install/bin/.." -DCMAKE INSTALL PRE 
FIX2"/home/wu/torch/install/lib/luarocks/rocks/cutorch/scm-1" && make -j$jopts in 
stall 


Building on 4 cores 
A417 终端 执行 第 一 行 命令 界面 
安装 完成 之 后 在 终端 输入 如 下 代码 进行 测试 输入 : 


th -e "require 'cutorch'; 
require 'cunn'; 
print (cutorch)" 





如 果 输 出 信息 且 不 报错 则 说 明 CUDA 支 持 安装 完毕 。 


43 ”基于 Torch 框 架 的 目标 检测 实现 (Faster R-CNN) 


本 节 进 入 Torch 框 架 的 实例 指导 ， 在 进行 代码 讲解 之 前 ， 需 要 先 了 解 一 些 Torch 的 类 和 包 的 结构 及 基本 用 法 ， 接 着 介绍 用 Torch 构 建 神经 网 络 的 步骤 ， 然 后 介绍 Faster R-CNN 的 基础 知识 ， 最 后 才 进 入 实 
例 指 导 。 


4.3.1 Torch 的 类 和 包 的 基本 用 法 


这 一 部 分 介绍 Torch 的 类 和 包 的 结构 及 基本 用 法 。 这 里 首先 介绍 Tensor 类 ， 之 后 重点 介绍 Torch 的 神经 网 络 包 (nn) 。 


Tensor 类 是 Torch 中 最 重要 的 类 ， 几 乎 所 有 的 包 都 依赖 于 这 个 类 实现 ， 它 是 整个 Torch 实 现 的 数据 基础 。 简 单 来 说，Tensor 实 际 上 就 是 一 个 多 维 矩 阵 ， 类 似 C 语 言 中 的 数组 。Torch 中 的 基本 运算 均 能 通 
过 Tensor 自 带 的 操作 来 完成 ， 只 需要 编写 一 个 lua 文 件 就 可 以 使 用 ， 非 常 方便 。 但 使 用 Tensor 操 作 无 法 完成 计算 或 者 效率 太 低 时 ， 就 需要 使 用 C 和 Cuda 来 实现 核心 算法 ， 然 后 用 Lua 来 调用 ， 这 个 方法 就 稍 
微 复 杂 一 些 。Tensor 的 类 型 如 表 4-3 所 示 。 


表 4-3 Tensor 的 类 型 及 表示 


Tensor 类 型 表示 
ByteTensor unsigned char 
CharTensor signed char 
ShortTensor short 
IntTensor int 


FloatTensor float 


DoubleTensor double 


其 中 大 多 数 的 数学 操作 仅 用 到 了 Float 如 下 和 DoubleTensor。 如 果 需 要 优化 内 存 ， 那 么 会 用 到 其 他 类 型 。 在 实践 中 为 了 使 用 方便 ， 一 般 使 用 torch.Tensor 和 torch.storage 来 定义 数据 ， 因 为 它 独立 于 数 
据 类 型 。 下 面 举 几 个 例子 以 加 深 对 Tensor 的 理解 。 











1) #Tensor 可 以 创建 多 维 数组 ， 数 组 中 是 任意 数 

z = torch.Tensor(3,4,2,3,5) 

2) # 使 用 storage 创 建 数组 ， 数 组 中 是 随机 生成 的 数 
s= torch. longStorage (3) 

s[1] = 2; s[2] = 3; s[3] = 5 

x = torch.Tensor(s) 

3) # 可 以 通过 qim() 访 问 Tensor 的 维度 数 

x:dim() 

#size (i) 可 以 返回 第 i 维 的 大 小 

x:size(2) 

#size() 会 返回 所 有 维 的 大 小 

x:size() 

4) #rand () 会 生成 随机 数组 

a = torch.rand(5,3) 

b=torch. rand (3, 4) 

+E ES FEES 

torch.mm(a,b) 

c=torch.Tensor (5, 4) 

# 存 储 a*b 的 结果 到 c 中 ， 和 矩阵 相 乘 注意 下 标 

c:mm (a,b) 
5) # 在 GPU 上 实现 4) 的 Tensors 运 算 
require 'cutorch'; 

a = a:cuda () 




































































b = b:cuda () 

c = c:cuda () 

# 在 GPU 上 执行 

c:mm (a,b) 

Tensor 类 还 有 很 多 具体 的 用 法 这 里 就 不 再 详细 介绍 了 ， 如 果 有 需要 可 以 自行 查阅 Tensor 类 的 具体 用 法 。 下 面 将 重点 介绍 Torch 的 神经 网 络 包 (nn) 。 


首先 对 整个 神经 网 络 包 (nn) 进行 总 览 ， 神 经 网 络 包 由 不 同 模块 (Module) 组 成 。Module 是 抽象 类 ， 可 以 通过 定义 成 员 函 数 实现 不 同 的 神经 网 络 结构 。Torch 中 的 Module 相 当 于 Caffe 中 的 Layer， 
每 个 Module 有 固定 的 实现 ， 比 如 更 新 输出 、 更 新 梯度 等 ， 用 户 可 以 直接 调用 这 些 操作 。 


Torch 中 神经 网 络 训练 的 方式 有 很 多 种 ， 比 如 有 “手动 挡 ” 和 “自动 挡 ”。 手 动 挡 就 是 自己 编写 函数 实现 更 新 权 值 ， 该 方式 一 般 只 针对 只 有 简单 层 的 网 络 。 如 果 有 卷 积 层 的 话 ， 编 写 会 比较 复杂 。 自 动 
挡 就 是 直接 调用 内 部 的 优化 函数 包 optim 来 进行 训练 。 


Module 主 要 有 4 个 了 国 数 。 

1) 前 向 传播 函数 : [output]forward(input) 

2) 反 向 传播 函数 : [gradinput]backward(input.gradOutput)， 以 及 在 后 面 自动 挡 训 练 方式 中 重 载 的 两 个 函数 。 
3) 更 新 输出 水 数 : [output]updateOutput(input) 

4) 更 新 梯度 函数 : [gradlnput]updateGradInput(input,gradOutput) 


神经 网 络 包 中 的 Module 结 构 以 及 函数 如 图 4-18 所 示 。 


pod Parallel 
ERE 子 类 






backward Contalner Sequential 
函数 容器 子 类 
Module 
抽象 类 my 
updateOutput — i: onca remove 
函数 子 类 函数 





Insert() 


updateGradInput 








图 4-18 Module 2: #J VUA š žk 


Module 的 子 类 是 Container， 复 杂 的 神经 网 络 可 以 用 它 来 进行 构建 ，Container 包 括 三 种 构建 神经 网 络 最 重要 的 子 类 : Sequential、Parallel 和 Concat， 由 这 三 类 构成 的 神经 网 络 就 既 会 包含 简单 层 
( 即 Linear、Mean、Max 和 Reshape 等 ) ， 也 会 包含 卷 积 层 还 有 激活 函数 Tanh、ReLU 等 。 这 三 种 构建 神经 网 络 的 类 (也 可 以 称 为 容器 ) 如 图 4-19 所 示 。 


nn.Sequential 











y 


nn.Concat ON 


^ 





nn.Parallel 


图 4-19 ”三 种 构建 神经 网 络 的 类 
Container 的 子 类 Sequential 重 新 实现 了 Module 类 的 方法 ， 此 外 还 增加 了 很 多 方法 。 主 要 立 数 如 下 : 
1) add(module) 用 来 添加 层 的 函数 。 
2) get(index) 用 来 获取 层 编号 。 
3) size0 用 于 计算 网 络 的 大 小 。 
4) remove(index) 用 于 移 除 编号 所 在 的 层 。 


5) 对 于 insert(module,[index])， 注 意 这 里 的 index 是 插入 网 络 层 之 后 其 排 到 的 index。 


SUE Fe 


4.3.2 用 Torch 构 建 伸 经 网 络 


了 解 了 一 些 Torch 的 类 和 包 的 结构 及 基本 用 法 之 后 ， 下 面 将 使 用 具体 代码 讲解 Torch 下 神经 网 络 的 构建 方法 。 

require'nn'; (1) 

语句 (1) 中 require 相 当 于 C 语 言 的 include，nn 包 是 神经 网 络 的 依赖 包 ， 注 意 在 语句 最 后 加 上 "; " ， 这 个 语法 与 Matlab 相 似 ， 如 果 不 添 加 分 号 会 打印 输出 数据 。 
net=nn.Sequential() (2) 


Torch 人 允许 使 用 者 逐 层 设计 自己 的 网 络 ， 就 像 是 容器 一 样 可 以 一 层 一 层 地 把 Layer (神经 网 络 中 的 层 ) 往 里 面 添加 。 首 先 ， 要 构造 一 个 神经 网 络 容器 ， 即 用 语句 (2) 的 代码 声明 一 个 图 4-19 中 的 第 一 种 


神经 网 络 容器 ， 网 络 名 为 net。 
net:add(nn.SpatialConvolution(3,6,5,5)) (3) 


语句 (3) 是 net 神 经 网 络 容器 调用 add() 添 加 方法 ， 向 容器 里 面 添加 层 ，nn.SpatialConvolution() 是 创建 一 个 卷 基层 ， 里 面 的 参数 值 的 含义 分 别 为 : 3 表示 输入 图 片 的 通道 数 ; 6 表示 经 过 该 层 的 卷 积 运 
算 输 出 的 通道 数 ; (5, 5) 这 两 个 参数 代表 的 是 用 5x 5 的 核 进行 卷 积 运算 。 该 层 就 是 把 3 通道 的 图 片 输入 网 络 ， 然 后 利用 5x 5 的 卷 积 核 进行 卷 积 运算 ， 最 后 输出 6 通道 的 图 片 。 对 于 常见 的 空间 模块 (Spatial 
Modules) ， 主 要 有 SpatialConvolution ( 卷 积 层 ) 、SpatialFullConvolution (RE) 、SpatialMaxPooling (最 大 池 化 层 ) 、SpatialAvaragePooling (平均 池 化 层 ) 。 


net:add(nn.ReLU()) (4) 


语句 (4) 是 在 卷 积 层 中 添加 激活 函数 ReLU， 也 可 以 添加 Sigmoid 函 数 ， 其 他 激活 函数 还 有 SoftMax、SoftMin、SoftPlus、LogSigmoid、LogSoftMax、Tanh、ReLU、PReLU、ELU、LeakyReLU 


net:add (nn.SpatialMaxPooling (2,2,2,2)) (5) 

语句 (5) 是 添加 最 大 池 化 层 ， 即 在 2x2 的 区 域内 找 最 大 的 数 ， 横 向 步 长 为 2， 纵 向 步 长 为 2。 
net :add (nn.Linear (16*5*5,120)) (6) 

语句 (6) Linear 是 全 连接 层 ， 在 这 里 让 这 16x5x5 (2400) 个 节点 与 120 个 节点 建立 全 连接 。 
net:add(nn.Dropout (p)) (7) 


语句 (7) 就 是 添加 Dropout 层 。 简 单 地 说 ， 每 一 个 神经 元 的 输入 将 会 以 p 的 概率 丢弃 。 这 个 方法 是 一 个 避免 过 拟 合 的 正规 化 方法 。 





net:add(nn.LogSoftMax()) (8) 


语句 (8) 是 SoftMax 将 输出 转化 成 对 数 概率 ， 用 于 分 类 问题 。 


构建 了 神经 网 络 ， 下 面 将 介绍 如 何 训练 网 络 。 首 先 需 要 一 个 损失 函数 ， 在 Torch 中 就 是 Criterion 模 块 。 


criterion=nn.ClassNLLCriterion() (9) 





criterion 评 价 准则 ， 是 用 来 定义 损失 函数 的 。 损 失 函 数 能 够 形式 化 地 衡量 神经 网 络 的 好 坏 。 损 失 函 数 有 很 多 ， 常 用 的 有 MSECriterion ( 均 方 误差 MSE) , ClassNLLCriterion (ZH) . 188) (9) AY 
FRA PR SSS FAA ESS SL 


trainer=nn.StochasticGradient (net, criterion) (10) 


语句 (10) 构建 的 net 网 络 使 用 随机 梯度 下 降 法 进行 训练 ， 其 中 第 二 个 参数 是 损失 函数 。 





trainer.learningRate=0.001 (11) 


语句 (11) 用 于 设置 训练 过 程 的 学 习 率 。 





trainer.maxTteration=5 (12) 





语句 (12) 用 于 设置 训练 的 批 次 即 5 次 。 


trainer:train (trainset) (13) 





语句 (13) 使 用 训练 集 开始 训练 


predicted=net:forward(testset.data[i]) (14) 





语句 (14) 对 测试 集 的 第 i 个 图 像 在 训练 好 的 网 络 中 作 预 测 。 


通过 以 上 讲解 ， 下 面 总 结 训练 一 个 神经 网 络 的 步骤 : 第 一 步 加 载 数据 ， 包 括 对 数据 进行 预 处 理 ; 第 二 步 定义 网 络 (设置 网 络 的 结构 ) ; 第 三 步 定义 损失 函数 ; 第 四 步 训练 (设置 训练 的 参数 ) ; 第 五 步 
测试 (对 训练 好 的 网 络 进行 测试 ) 。 


4.3.3 Faster R-CNN 介 绍 


在 讲解 完 Torch 的 神经 网 络 构建 之 后 ， 接 下 来 就 进入 Faster R-CNN 相 关 知 识 的 介绍 。 在 Faster R-CNN 出 现 之 前 还 有 三 个 阶段 ， 分 别 是 R-CNN (将 CNN 引 入 目标 检测 的 开山 之 作 ) 、SPP-net (引入 空 
间 人 金字 塔 池 化 以 改进 R-CNN) ， 以 及 Fast R-CNN。 在 被 SPP-net 指 出 各 种 R-CNN 的 浆 端 之 后 ，R-CNN 的 作者 Ross Girshick 对 网 络 进行 了 改进 ， 设 计 出 Fast R-CNN, Fast R-CNN 的 训练 和 测试 速度 都 比 
SPP-net 快 ， 并 且 效 果 好 ， 在 Fast R-CNN 之 后 又 设计 出 了 Faster R-CNN。 所 以 下 面 将 先 介绍 R-CNN 和 SPP-net， 接 着 介绍 Fast R-CNN， 最 后 介绍 本 节 的 重点 Faster R-CNN, 


在 深度 学 习 快 速 帮 展 之 前 ， 以 人 工 经 验 特征 为 主导 的 物体 检测 任务 的 平均 精度 提升 缓慢 ， 随 着 ReLu 激 活 函 数 、dropout 正 则 化 手段 和 大 规模 图 像样 本 集 的 出 现 ， 在 2012 年 ImageNet 大 规模 视觉 识别 挑 
战 赛 中 ，Hinton 及 他 的 学 生 采 用 CNN 特 征 获得 了 最 高 的 图 像 识 别 精 确 度 。 在 该 比赛 结束 后 ， 引 发 了 关于 是 否 可 以 采用 CNN 特 征 来 提高 当前 一 直 停滞 不 前 的 物体 检测 准确 率 的 讨论 。 在 这 之 后 R-CNN 应 运 而 
^F, 

R-CNN (Regions with CNN features) 出 自 Ross Girshick 的 论文 《Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation》， 该 论文 是 将 CNN 方 法 引入 目标 检 
测 领 域 的 开山 之 作 ， 该 结构 大 大 提高 了 目标 检测 效果 ， 改 变 了 目标 检测 领域 的 主要 研究 思路 ， 紧 随 其 后 的 系列 结构 如 SPP-net、Fast R-CNN. Faster R-CNN 代 表 该 领域 当时 的 最 高 水 准 。 


R-CNN 中 的 R 指 的 是 region (Kik) ， 即 在 训练 数据 进入 卷 积 神经 网 络 (CNN) 之 前 会 生成 若干 个 建议 框 。R-CNN 的 步骤 如 图 4-20 所 示 。 
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1) 输入 图 像 2) 提取 建议 框 3 ) 计算 CNN 特征 4) 对 区 域 进行 分 类 





图 4-20 R-CNN 目 标 检测 流程 
1) 输入 多 目标 图 像 。 
2) 采用 选择 性 搜索 (selective search) 算法 在 图 像 中 提取 约 2000 个 建议 框 。 
3) 利用 已 经 训练 好 的 CNN 网 络 对 每 一 个 候选 区 域 得 到 的 特征 进行 评分 。 
4) 将 图 中 提取 的 2000 个 区 域 进行 SVM 分 类 。 


R-CNN 的 成 功 之 处 在 于 : 经 典 的 目标 检测 算法 使 用 滑动 窗口 的 方式 依次 判断 所 有 可 能 的 区 域 ， 而 R-CNN 则 预先 提取 一 系列 较 可 能 是 物体 的 候选 区 域 ， 之 后 仅 在 这 些 候选 区 域 上 提取 特征 进行 判断 ; 经 
典 的 目标 检测 算法 在 区 域 中 提取 人 工 设 定 的 特征 (如 Haar、HOG) ， 而 R-CNN 通 过 训练 深度 网 络 进行 特征 提取 。 


但 是 R-CNN 也 存在 很 多 问题 : 


1) 对 一 张 图 片 的 处 理 速 度 慢 。 这 是 由 于 一 张 图 片 中 由 选择 性 搜索 算法 得 出 的 约 2000 个 建议 框 都 需要 经 过 变形 处 理 后 由 CNN 前 向 网 络 计算 一 次 特征 ， 而 这 其 中 包括 对 一 张 图 片 中 多 个 重复 区 域 的 重复 计 
算 。 


2) 训练 时 间 长 。 由 于 采用 ROI-centric sampling 〈 即 从 所 有 图 片 的 所 有 建议 框 中 均匀 取样 ) 进行 训练 ， 每 次 都 需要 计算 不 同 图 片 中 不 同 建议 框 的 CNN 特 征 ， 无 法 共享 同一 张 图 的 CNN 特 征 ， 使 训练 速 
ERIS. 
3) 整个 测试 过 程 复 杂 。 要 先 提 取 建 议 框 ， 之 后 提取 每 个 建议 框 的 CNN 特 征 ， 再 用 SVM 分 类 ， 做 非 极 大 值 抑 制 ， 最 后 做 边框 回归 才能 得 到 图 片 中 物体 的 种 类 以 及 位 置信 息 。 


上 文 提 到 R-CNN 的 最 大 瓶颈 是 2000 个 候选 区 域 都 要 经 过 一 次 CNN， 速 度 非常 慢 。Kaiming He 最 先 对 此 问题 做 出 改进 ， 其 在 论文 《Spatial Pyramid Pooling in Deep Convolutional Networks for 
Visual Recognition》 中 提出 了 SPP-net (Spatial Pyramid Pooling net) ， 最 大 的 改进 是 只 需要 将 原 图 输入 一 次 ， 就 可 以 得 到 每 个 候选 区 域 的 特征 。 在 R-CNN 中 ， 候 选区 域 需要 经 过 变形 缩放 ， 以 此 适应 
CNN 输 入 ，Kaiming He 提出 Spatial Pyramid Pooling (SPP) 结构 来 适应 任何 大 小 的 图 片 输入 。 图 4-21 是 对 传统 CNN 和 SPP-net 的 比较 。 


输入 图 像 





输入 图 像 





图 4-21 传统 CNN 和 SPP-net 的 比较 


这 里 解释 一 人 CNN 需 要 固定 输入 大 小 的 原因 。 卷 积 层 和 池 化 层 的 输出 尺寸 都 是 与 输入 尺寸 相关 的 ， 它 们 的 输入 不 需要 固定 图 片 尺 斗 ， 而 真正 需要 固定 尺寸 的 是 最 后 的 全 连接 层 。 由 于 全 连接 层 的 存在 ， 
普通 的 CNN 通 过 固定 输入 图 片 的 大 小 来 使 得 全 连接 层 输入 固定 。SPP-net 就 是 在 卷 积 层 的 最 后 加 入 SPP， 使 后 面 全 连接 层 得 到 的 输入 为 固定 长 度 。SPP 层 的 结构 如 图 4-22 所 示 ， 将 紧 跟 最 后 一 个 卷 积 层 的 池 
化 层 使 用 SPP 代 苦 ， 输 出 向 量 作为 全 连接 层 的 输入 。 有 了 这 样 的 改进 之 后 ， 网 络 可 对 任意 长 宽 比 的 图 像 进行 处 理 。 


SPP-net 对 R-CNN 最 大 的 改进 就 是 对 特征 提取 步骤 做 出 修改 ， 其 他 模块 仍然 与 R-CNN 一 样 。 其 特征 提取 不 再 需要 每 个 候选 区 域 都 经 过 CNN ， 只 需要 将 整 张 图 片 输入 CNN，ROI ( 感 兴趣 区 域 ) 特征 直 
接 从 特征 图 获取 ， 同 时 还 解决 了 裁剪 、 变 形 过 程 中 造成 的 图 像 失真 或 者 剪 切 不 完全 的 问题 。 与 R-CNN 相 比 ，SPP-net 速 度 提高 了 百倍 。 

SPP-net 同 样 有 缺点 ， 它 同 R-CNN 一 样 要 经 过 多 个 训练 阶段 ， 特 征 也 要 存在 磁盘 中 。 另 外 ，SPP-net 中 的 微调 只 更 新 SPP 层 后 面 的 全 连接 层 ， 对 很 深 的 网 络 并 不 适合 ， 离 预期 达到 的 端 到 端的 检测 还 有 
一 定 的 距离 。 
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图 4-22 SPP 层 的 网 络 结构 
针对 R-CNN 和 SPP-net 的 缺陷 ，Ross Girshick 在 论文 《Fast R-CNN》 中 提出 了 Fast Region-based Convolutional Network method ( 即 Fast R-CNN) 结构 ， 如 图 4-23 所 示 。 


在 图 4-23 中 ， 首 先 将 输入 图 像 和 多 个 ROI 输 入 到 全 卷 积 网 络 中 。 每 个 ROI 被 池 化 成 固定 大 小 的 特征 图 ， 然 后 通过 全 连接 层 映 射 到 特征 向 量 。 该 网 络 中 每 个 ROI 有 两 个 输出 向 量 ， 分 别 是 softmax 分 类 得 分 
和 每 类 边界 框 回归 。 

Fast R-CNN 的 改进 之 处 在 于 : R-CNN 训 练 时 间 和 空间 开销 大 ， 所 以 Fast R-CNN 使 用 image-centric 的 训练 方式 和 通过 卷 积 的 共享 特性 来 降低 运算 开销 ; R-CNN 提 取 特 征 给 SVM 训练 的 时 候 占 用 大 量 
的 磁盘 空间 以 存放 特征 ，Fast R-CNN 去 掉 了 SVM 这 一 步 ， 所 有 的 特征 都 暂 存 在 显存 中 ， 这 样 做 的 好 处 是 不 需要 额外 的 磁盘 空间 ; 还 有 就 是 测试 时 间 开 销 大 ， 这 点 SPP-net 已 经 改进 ，Fast R-CNN 进 一 步 通 
过 单 尺度 测试 和 SVD 分 解 全 连接 来 提速 。 
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图 4-23 ”Fast R-CNN 网 络 结构 


Fast R-CNN 的 具体 流程 如 下 所 示 : 

1) 任意 大 小 的 图 片 输入 CNN ， 经 过 若干 卷 积 层 与 池 化 层 ， 得 到 特征 图 。 

2) 在 任意 大 小 的 图 片上 采用 选择 性 搜索 算法 提取 约 2000 个 建议 框 。 

3) 根据 原 图 中 建议 框 到 特征 图 的 映射 关系 ， 在 特征 图 中 找到 每 个 建议 框 对 应 的 特征 框 (深度 和 特征 图 一 致 ) ， 并 在 ROI 池 化 层 中 将 每 个 特征 框 池 化 到 Hx W 的 大 小 ; 
4) 固定 HxW 大 小 的 特征 框 经 过 全 连接 层 得 到 固定 大 小 的 特征 向 量 。 


5) 第 4 步 所 得 特征 向 量 经 由 各 自 的 全 连接 层 (由 SVD 分 解 实现 ) ， 分 别 得 到 两 个 输出 向 量 ， 分 别 是 softmax 分 类 得 分 和 每 类 边界 框 回 归 。 
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6) 利用 窗口 得 分 ， 分 别 对 每 一 类 物体 进行 非 极 大 值 抑制 以 剔除 重 革 建议 框 ， 最 终 得 到 每 个 类 别 中 国 归 修正 后 的 得 分 最 高 的 


下 面具 体 讲解 Fast R-CNN 中 使 用 的 方法 。 


1) 使 用 选择 性 搜索 算法 生成 候选 窗口 ， 抛 奔 了 滑动 窗口 范式 (传统 的 如 SIFT、HOG 等 方法 ) 。 选 择 性 搜索 算法 先 基于 各 种 颜色 特征 将 图 像 划 分 为 多 个 小 块 ， 然 后 自 底 向 上 地 对 不 同 的 块 进行 合并 ， 在 
这 个 过 程 中 合并 前 后 的 每 一 个 块 都 对 应 于 一 个 候选 窗口 ， 最 后 挑 出 最 有 可 能 包含 待 检测 目标 的 窗口 作为 候选 窗口 。 

2) Fast R-CNN 的 数据 输入 不 存在 图 片 大 小 的 限制 ， 通 过 ROI 池 化 层 ， 它 可 以 在 任意 大 小 的 图 片 特征 图 上 针对 输入 的 每 一 个 ROI 区 域 提 取出 固定 维度 的 特征 表示 ， 保 证 对 每 个 区 域 的 后 续 分 类 能 够 正常 
进行 。 这 样 做 的 好 处 是 可 以 将 原 图 中 的 ROI 定 位 到 特征 图 中 对 应 的 块 ， 将 这 个 特征 图 中 的 块 下 采样 为 大 小 固定 的 特征 ， 方 便 传 入 后 面 的 全 连接 层 。 
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3) 边框 回归 方法 是 在 给 定 窗口 的 基础 上 预测 真实 检测 框 的 位 置 和 大 小 ， 即 有 了 候选 窗口 之 后 ， 如 果 其 被 判别 成 一 个 人 脸 窗口 ， 就 会 进一步 被 调整 以 得 到 更 加 精确 的 位 置 和 大 小 ， 使 边框 与 待 检测 目标 贴 
合 得 更 好 。 边 框 回归 一 方面 提供 了 一 个 新 的 角度 来 定义 检测 任务 ， 另 一 方面 对 于 提高 检测 结果 的 精确 度 有 比较 显著 的 作用 。 

4) 在 目标 检测 任务 中 ， 选 择 性 搜索 算法 提取 的 2000 张 建议 框 几 乎 前 向 计算 的 一 半 时 间 被 化 费 于 全 连接 层 ， 就 Fast R-CNN 而 言 ，ROI 池 化 层 后 的 全 连接 层 需要 进行 约 2000 次 计算 (每 个 建议 框 都 要 计 
fi) ， 因 此 在 Fast R-CNN 中 采用 SVD 分 解 以 加 速 全 连接 层 计算 ， 在 实现 时 ， 相 当 于 把 一 个 全 连接 层 拆 分 为 两 个 全 连接 层 ， 第 一 个 全 连接 层 不 含 偏 置 ， 第 二 个 全 连接 层 含 偏 置 。 

5) Fast R-CNN 中 采用 image-centric sampling， 即 小 批量 数据 采用 层次 采样 ， 其 先 对 图 像 采 样 ， 再 在 采样 到 的 图 像 中 对 候选 区 域 采 样 ， 同 一 图 像 的 候选 区 域 卷 积 共享 计算 和 内 存 ， 降 低 了 运算 开销 。 

6) 在 数据 集 方 面 ， 有 一 个 较 大 的 识别 库 和 一 个 较 小 的 检测 库 。Fast R-CNN 使 用 识别 库 进 行 预 训练 ， 而 后 用 检测 库 调 优 参数 ， 最 后 在 检测 库 上 测评 。 


在 Fast R-CNN 的 基础 上 Ross Girshick 等 人 在 论文 《Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks》 中 提出 了 Faster R-CNN 结 构 ， 达 到 了 当时 这 几 个 模型 


中 最 高 的 目标 检测 准确 率 。 


\ 一 /一 


SPP-net 和 Fast R-CNN 目 标 检测 网 络 需要 先 用 区 域 建议 算法 Selective Search (选择 性 搜索 ) 推测 目标 位 置 ， 而 且 它 们 已 经 减少 了 检测 网 络 的 运行 时 间 ， 但 是 随 之 而 来 计算 区 域 建议 就 成 了 瓶颈 问题 。 
在 Faster R-CNN 中 ， 提 出 了 一 种 区 域 建议 网 络 (Region Proposal Network, RPN) ， 它 与 检测 网 络 共享 全 图 的 卷 积 特征 ， 使 区 域 建议 几乎 不 需要 花 时 间 。RPN 是 一 个 全 卷 积 网 络 ， 在 每 个 位 置 同时 预测 
目标 边界 和 目标 得 分 。RPN 是 端 到 端 训练 的 ， 生 成 高 质量 区 域 建议 框 ， 用 于 Fast R-CNN 的 检测 。 通 过 一 种 简单 的 交 蔡 运行 优化 方法 ，RPN 和 Fast R-CNN 可 以 在 训练 时 共享 卷 积 特征 。 


Faster R-CNN 统 一 的 网 络 结构 如 图 4-24 所 示 ， 可 以 简单 看 作 RPN 加 Fast R-CNN, 






k 特征 图 ane 
## JE 池 化 层 


特征 图 


卷 积 层 /全 
连接 层 1 






滑动 窗口 


图 4-24 Faster R-CNN 的 网 络 结构 
1) 首先 向 CNN 输 入 任意 大 小 图 片 。 
2) 经 过 CNN 前 向 传播 至 最 后 共享 的 卷 积 层 ， 一 方面 得 到 供 RPN 输 入 的 特征 图 ， 另 一 方面 继续 前 向 传播 至 特有 卷 积 层 ， 产 生 更 高 维特 征 图 。 
3) 供 RPN 输 入 的 特征 图 经 过 RPN 得 到 区 域 建议 和 区 域 得 分 ， 并 对 区 域 得 分 采用 非 极 大 值 抑 制 ， 输 出 其 得 分 的 区 域 建议 给 ROI 池 化 层 。 
4) 将 第 2 步 得 到 的 高 维特 征 图 和 第 3 步 输出 的 区 域 建议 同时 输入 ROI 池 化 层 ， 提 取 对 应 区 域 建议 的 特征 。 
5) 第 4 步 得 到 的 区 域 建议 特征 通过 全 连接 层 后 ， 输 出 该 区 域 的 分 类 得 分 以 及 回归 后 的 边框 回归 。 


RPN 的 网 络 结构 如 图 4-25 所 示 ，Anchors 是 一 组 大 小 固定 的 参考 窗口 : 三 种 尺 十 (128x128，256x256，512x512}x 三 种 长 宽 比 {1:1，1:2，2:1}， 如 图 4-26 所 示 ， 表 示 RPN 中 对 特征 图 滑 窗 时 每 个 滑 窗 
位 置 所 对 应 的 原 图 区 域 中 9 种 可 能 的 大 小 ， 相 当 于 模板 ， 对 于 任意 图 像 其 任意 滑 窗 位 置 都 是 这 9 种 模板 。 继 而 根据 图 像 大 小 计算 滑 窗 中 心 点 对 应 原 图 区 域 的 中 心 点 ， 通 过 中 心 点 和 大 小 就 可 以 得 到 滑 窗 位 置 和 
原 图 位 置 的 映射 关系 ， 再 根据 原 图 中 生成 的 锚 点 框 和 Ground Truth 的 不 同 交 蚂 率 (loU) 将 锁 点 框 中 的 目标 标记 为 正 负 样本 ， 让 RPN 学 习 该 Anchors 是 否 有 物体 即 可 。 


2k 个 得 分 Ak 个 坐标 < k^ RE 


分 类 层 N / 回归 层 


256-d 


中 间 层 
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卷 积 特征 图 


图 4-25 RPN 的 网 络 结构 
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图 4-26” 滑 窗 大 小 示意 图 


4.3.4 Faster R-CNN 实 例 


有 了 以 上 Faster R-CNN 基 础 知识 的 介绍 ， 接 下 来 就 正式 进入 Faster R-CNN 实 例 指 导 。 该 实例 的 目标 就 是 要 通过 大 规模 数据 集训 练 一 个 目标 检测 网 络 ， 目 标 检 测 通俗 地 讲 就 是 在 图 像 中 定位 目标 ， 并 确 
定 目标 的 位 置 及 大 小 。 该 Faster R-CNN 程 序 的 主要 文件 调用 关系 如 图 4-27 所 示 。 下 面 将 以 数据 集 准 备 、 模 型 准备 、 候 选区 域 生 成 、 数 据 集 处 理 、 模 型 训练 、 模 型 检测 以 及 主 函 数 的 顺序 详细 讲解 代码 的 实 
现 过 程 。 


数据 集 准备 


mian.lua 


(1) 数据 集 准 备 


ILSVRC2015_DET.t7 


create-Imagenet- 


traindata.lua 


vgg small.lua = 
lua 
Imagenet.lua 
lua lua 
Batchlterator.lua Anchors.lua 


' 


objective.lua 


De 


tector.lua 


| 


Localizer.lua 


图 4-27 程序 文件 调用 关系 


u / 
— annotations.xml 


ILSVRC2015 


utilities.lua 








Image.jpeg 


本 实例 使 用 的 数据 集 是 ILSVRC2015， 该 数据 集 包含 三 个 子 文件 ， 实 例 中 将 用 到 Annotations 和 Data 子 文件 。Annotations 是 注释 文件 夹 ， 包 含 训练 集 和 验证 集 图 像 中 目标 位 置 及 类 别 的 xml 文 件 ; Data 


是 图 像 文 件 夹 ， 包 含 训练 集 和 验证 集 的 图 像 ， 其 中 训练 集 文件 中 还 额外 包含 
件 ， 如 图 4-27 方 框 所 示 。create-imagenetrtraindata.Iua 文 件 的 代码 如 下 所 示 ， 该 文件 生成 的 数据 集 t7 文 件 中 包括 训练 集 、 验 证 集 的 图 像 路 径 以 及 通过 XML 生成 的 图 像 标签 ， 还 包括 


=a = 
FER 


FER 


图 像 文件 。 在 原始 数据 集 的 基础 上 就 可 以 根据 ILSVRC2015 和 create-imagenet-traindata.Iua 生 成 程序 所 需要 的 数据 集 t7 文 


46 = 


图 像 的 文件 夹 。 





Screate-imagenet-traindata.lua 


# 指 定 ILSVRC2015 数 据 集 的 基本 路 径 














[LSVRC2015 BASE 








require 'lfs' 





DIR = '/data/imagenet/] 





# 如 果 没 有 LuaXML， 使 用 luarocks 安 装 LuaXML 





require ' 


LuaXML 














require 'utili 


ties' 





require 'Rect' 






























































































































































[LSVRC2015/' 








ocal ground truth = () 
local class names = () 
local class index = {} 
# 读 取 XML 文 件 的 内 容 ， 存 储 标记 的 目标 区 域 作为 ROI， 作 为 groungd truth 
function import file(anno base, data base, 
local a = x:find('annotation') 
local folder = a:find('folder') [ 
local filename = a:find('filename') [1] 
local src = a:find('source') 
local db = src:find('database') [1] 
local sz = a:find('size') 
local w = tonumber (sz:find('width') [1]) 
local = tonumber (sz:find('height')[1]) 
for ve in pairs(a) do 
if e[e.TAG] == 'object' then 
local obj = e 
local name = obj:find('name')[1] 
local bb = obj:find('bndbox') 
local xmin = tonumber (bb:find('xmin')[1]) 
local xmax = tonumber (bb:find('xmax')[1]) 
local ymin = tonumber (bb:find('ymin') [1]) 
local ymax = tonumber (bb:find('ymax')[1]) 
if not class index[name] then 
class names[#class names + 1] = name 
class index[name] = fclass names 


local image pal 


HERA 





image path = s! 








"JPEG" 结 尾 的 xml 文 件 








end 
# 生 成 相对 于 注解 目录 的 路 径 ， 并 与 数据 目录 连接 
th = path.join(data base, path.relpath (i 


table.insert (name_table, image path) 


oca] 











local 








L- 

















if not 
fj 








e entry 





ground truth[image path] = 











ROI = (rect = Rect.new(xmin, ymin, xmax, ymax), 
class index = class index[name], 
class name = name) 
le entry = ground truth 
file entry then ` 

( image file name - image path, ROI 


[image path] 














file entry 








fn, name table)local x — xml.load(fn) 


fn, anno base)) 


i 








BPS/Text/.. 











tring.sub(image path, 1, fimage path - 3) http://www.hzcourse.com/resource/readi 


Book?path=/openresources/teach ebook/uncompressed/17529/OE 


"JPI 





EC 
EC 


end 
table.insert( 





f] 








RO 








end 
end 
end 


# 加 载 路 径 的 操作 








le entry.ROIs, 





function import direct 
for fn in lfs.dir 











ory(anno base, da 
(direc 


tory path) do 

















local full fn 

















th.join(directory path, fn) 














local mode = ] 





fs.a 








tributes (full fn, 'mode') 





l mport 


f recursive and mode 
direct 











directory' and 


fn ~= '! 





ta base, directory path, recursive, name table) 














ttp://www.hzcourse.com/resource/ read 





tory (anno base, data base, ful 








lseif mode 

















f #ground 
return 
end 
end 
return 1 
end 


collectgarbage () 


file (anno base, 








| table) 














file' and string.sub(fn, -4) 





then 

















data base, full f 


truth » 10 then 





# 通 过 训练 和 验证 目录 递归 搜索 3 








func 


function expand (p) 
return path.joi 
end 
local 
local validat 
import direc 


























tion create ground ` 


training set = 
ion set = 
tory(expand(train annotation dir), 


导入 所 有 xml 文 件 
truth file(dataset name, bas 
val 




















dir, 
annotation dir, 





train annotation dir, 
train data dir, 








val: 
n(base dir, p) 


Cs 
{} 


expand ( 
expand ( 
true, 

training set) 


train data dir), 
train annotation dir), 








import directory (expand (val annotation dir), 





„file names 
背景 图 像 列表 


background 


local 
# 编 译 背 


local 








fi 











directory | path = 
for fn in 











fs.dir (direct 


expand (val data dir), 
expand(val annotation dir), 
true, 

validation set 
keys (ground tru 





— 





th) 


les 


{} 


expand (directory path) 
tory path) do 














local 





th. join (directory | path, 











local 
if mode 
table.i 








end 
end 
end 


# 打 印 数 据 信息 














ttributes (full fn, 
file' and string.sub(fn, -5) 
nsert (background files, full | 






































Format 





print (string. 





Sd; classes: 
Sd; (1 


("Total images: 
validation set: 
#fil 
#validation set 














t, #background_ 








save obj(output fn, 






































(dataset name - dataset name, 
ground truth = ground tru 
training set 
validation sel 
































data dir, background dirs, output ` 


a 
Background: 
e names, #class names, 4training sel 
files)) 





fn) 


for i,directory | path in ipairs (background dirs) do 





fn) 


"mode ') 
:lower() == '.jpeg' then 
n) 





oo 


%d) ' 





` 


th, 
training set, 
validation se 


-1 








files}) 


LSVRC2013 train extra' http://www.hzcourse. 

















class names = class names, 
class index = class index, 
background files = background 
print ('Done.') B i 
end 
VOR AR XIR 
background folders = {} 
for i=0,10 do 
table.insert (background folders, 'Data/DET/train/I 
end 
# 调 用 文件 创建 ground _ truth 文件 并 保存 为 七 .7 
create ground truth file('ILSVRC2015 DET', 
z _ = LSVRC2015 BASE DIR, 
'Annotations/DET/train', 
'Annotations/DET/val', 
'Data/DET/train', 
'Data/DET/val', 
background folders, 
'ILSVRC2015 DET.t7') 


在 终端 运行 该 文件 之 后 ， 





Total images: 


Done. 





(2) 模型 准备 


该 目标 检测 网 络 的 结构 如 图 4-29 所 示 ， 目 标 检 测 网 络 


vgg_small 网 络 由 VGG-16 修 改 而 来 ， 卷 积 层 的 个 数 和 卷 积 块 的 个 数 与 VCG16 有 所 不 同 ， 同 时 卷 积 核 的 某 些 个 数 也 不 一 样 ; 锚 点 网 
行 回 归 以 及 对 检测 的 目标 进行 分 类 。 


议 网 络 的 基础 上 对 边框 进 


模型 的 建立 由 imagenet.lua、model utilities.lua 以 及 vgg_small.lua 三 个 文件 完成 。 下 面具 体 介 绍 这 三 


imagenet.Iua 文 件 是 数据 集 的 配置 文件 ， 包 含 各 种 数据 集 的 基本 信息 ， 这 种 把 配置 信息 单独 人 存放 在 一 个 文件 的 好 处 是 对 于 大 型 程序 来 说 ， 修 改 这 些 参数 十 分 方便 ， 不 需 


imagenet.lua 








local imgnet cfg = { 
class count = 200,# 
target smaller side 
























































会 打印 出 如 图 4-28 所 示 的 数据 集 图 像 个 


352154; classes: 2 























类 别 数量 〈 不 包括 背景 类 ) 
= 480，# 输 入 图 像 最 小 的 边 











分 为 两 个 子 网 络 ， 分 别 是 建议 


Book?path=/openresources/teach ebook/uncompressed/17529/OE 


com/resource/readi 


= 























数 及 类 别 信息 。 


图 4-28 ”执行 创建 数据 集 文件 终端 输出 结果 


网 络 和 分 类 


TOT. 


validation 


, EtrhëË1 828 Jvgg_small £Z&TUt sa 026 , 


= 


Book?path-/openresources/teach ebook/uncompressed/17529/0E 


BPS/Text/.. 








BPS/ 





:~/faster-rcnn-torch-master2$ th create-imagenet-traindata. Lua 
200; train set: 478807; 


set: 55502; (Background: 107248) 


:-/faster-rcnn-torch-master25 E 


分 类 网 络 又 分 为 回归 分 支 和 分 类 分 支 。 
让 络 由 四 层 网 络 组 成 ， 每 层 网 络 又 包含 两 个 卷 积 层 ; 分 类 网 络 就 是 在 建 


在 具体 程序 中 找到 相应 的 值 来 


scales = { 48, 96, 192, 384 ), #RE 
max pixel size = 1000, # 最 大 像素 的 大 小 
# 归 一 化 〈 方 法、 宽度、 均值 、 标 准 差 ) 


normalization = í method = 'contrastive 
# 数 据 增 广 〈 垂 直 翻 转 、 水 平 翻转 、 随 机 尺度 变换 ) 
































', width = 7, centering = true, scaling = true }, 





convolution Conv Block1: 


MaxPooling 64 output filters 


convolution 


| Conv Block2: 
MaxPooling 


convolution 


convolution 





Conv Block3: 
256 output filters 






MaxPooling 


convolution 
Conv Block4: 


convolution | 
384 output filters 


MaxPooling 





anchor nets 





Linear ( 1024 ) 


Batch Normalizaton 


Linear ( 512 ) 


dropout 





regression classification 


Linear ( 4 ) Linear ( 200 ) 


LogSoftMax 





图 4-29 ”网 络 结构 图 











augmentation = { vflip = 0, hflip = 0.25, random scaling = 0, aspect jitter = 0 }, 

color space = 'yuv', #jJMf =a i 7 

ROI pooling = ( kw = 6, kh = 6 }，#ROI 池 化 的 大 小 

examples base path = '', 

background base path = '', 
batch size = 300,# 小 批量 数据 的 大 小 
positive threshold = 0.6, +E% BE 
negative threshold = 0.25, #M PFA BUA 
best match = true, 
nearby aversion = true } 

return imgnet cfg 






































vgg_small.lua 文 件 是 该 目标 检测 网 络 的 配置 文件 ， 文 件 中 只 存放 了 建议 网 络 和 分 类 网 络 的 关键 参数 。model_utilities.lua 通 过 调用 这 些 参 数 就 可 以 建立 网 络 模 型 。 这 样 分 开 两 个 文件 的 好 处 是 在 配置 文 


件 中 修改 网 络 的 参数 就 可 以 改变 网 络 的 结构 。 


vgg small.lua 

























































































require 'models.model utilities' 
#vgg_smal1 模 型 
function vgg small (cfg) 
# 这 里 的 层 是 指 一 一 批 或 多 批 卷 积 4 层 ， 其 后 是 最 大 池 化 层 
# 卷 积 层 layers 里 的 参数 分 另 | 是 卷 积 核 个 数 、 卷 积 核 的 宽 和 高 、 
local layers = { 
{ filters= 64, kW=3, kH=3, padW=1, padH=1, dropout= 
{ filters=128, kW=3, kH=3, padW=1, padH=1, dropout 
{ filters=256, kW=3, kH=3, padW=1, padH=1, dropout 
{ filters=384, kW=3, kH-3, padW-1, padH-1, dropout 
mm 
local anchor nets = { 
( kW-3, n-256, input=3 ), finput/éjB Le Ce" 
( kW-3, n-256, input-4 }，#kW 为 卷 积 核 的 宽 ( 宽 和 高 相等 ) 
{ kW=5, n=256, input=4 }, 
{ kW=7, n=256, input=4 }} 
# 分 类 层 
local class layers = { 
{ n=1024, dropout=0.5, batch norm=true }, 








{ n=512, dropout=0.5 }, 


} 


return create model (c 


end 





return vgg small 








fg, layers, anchor ne 





model utilities.lua 文 件 是 真正 的 创建 网 络 模 型 的 文件 。 


ies.lua 





model utilit 
require 'nng 


# 创 建 建议 网 络 











UH 








raph' 





# 卷 积 加 PReLU 函 数 





local 


end 


# 多 个 卷 积 层 之 后 是 max-poo] 


function ConvPReLU (con 


tainer,nI 




















ts, class layers) 





conv S 


.4, conv s 
.4, conv si 
teps-2 ) 





conv S 


填充 0 的 个 数 、dropout、 卷 积 的 步 幅 


teps=1 }, 
teps=2 }, 


teps-2 }, 





通过 调用 vgg_small.lua 分 别 创建 了 建议 网 络 和 分 类 网 络 ， 至 


function create proposal net (layers, anchor nets) 


先 定义 积木 瑞 函 数 ，VGG 的 3x3 卷 积 块 


nputPlane,nOutputPlane, 





HINER, BROT AeA H 


container:add (nn. Spat 





container:add (nn. PRel 
if dropout and dropout > 0 then 
container:add(nn.SpatialDropout (dropout) ) #WšJlldropout 





end 


return container 





# 卷 积 池 化 块 函数 





local 


end 








function ConvPoo] 











# 块 中 卷 积 层 的 个 数 





ConvPI 





nInput 
#4 conv-pooldkt H 


dropo 
end 


Plane = 





ut = wl 


Ling: 





tialConvol 





ution (n 


kW, kH, padW, padH, dropout) 








LU()) HA 





Block (container, nI 





JJH PReLU 





通道 数 、 卷 积 核 尺 寸 、 步 长 、 补 边 
InputPlane, nOutputPlane, 


kW,kH, 1,1, padW,padH)) 





for i=l,conv steps do 


utPlane 





ReLU (container, nI 


np 





nOutputPlan 
个 dropout 层 





有 














e 





# 添 加 最 大 池 化 层 《〈 参 数 : 池 化 的 大 小 和 步 长 ) 


container:add(nn.SpatialMaxPooling(2, 2, 2, 2) 
urn container 


ret 











local fu 


nc 





F8 ££ — t ZR, 189302 B og BI 


tion AnchorNetwork (n 


2564 4E 








end 

local 
local 
local 
local 





CO 











input = 


# 声 明 一 个 
local net 





š 





quential 











nputPlane, nOutputPlane, 
kW, kH, padW, padH, dropout, 


, nOutputPlane, 
kW, kH, padW, padH, dropout) 





:ceil()) 





度 ， 然 后 进一步 使 锚 的 输出 长 宽 比 为 3 


InputPlane, n, kerne] 








() 
# 添 加 卷 积 层 WA A SE, 卷 积 核 尺 寸 ， 步 长 ) 


nei 
ne 
ne 


GEG et 


nn. 


nv_output 





inputs = 3 
prev = input 











for Is 


in ipai rs 


:add (nn. Spat 
:add (nn. PReLU()) 
:add (nn.Spatial 


tial 


Convolut 














ion 




















Convolution 








{} 


S = 


# 循 环 建立 vgg_smal1l 网 络 





(layers) 





ps 明 一 


loca 








# 调 用 ConvPool 1 
ConvPoo1B] 


inpu 


序列 网 


1 n 


络 











ock 
ts = l.fi 








(net, 
lters 





prev = net (prev) 


tabl 
end 


# 存 储 建议 








e.insert 


网 络 的 输出 








local proposal outputs = 
for i,a in ipairs(anchor nets) do 





end 


table.insert (proposal outputs, conv outpu 


table.insert (proposal outputs 


(conv outpu 


inpu 


do 


Identity () () 


t = mn. — petal} 
Blockers, R 


中 参数 来 自 

















s, l.filt 


(nInputPlane, n, kernelWidth,kernelWidth, 


(ty. 3° * 


(2 + 4), 


vgg small.lua 


ers, 


l.kW, 


l.kH, 


| Width) 








AnchorNetwork (layers [a.input] 





, 






























































name) 

















: findModules (name) ) 
V.kW * v.kH * v.nOutputPlane 


ts，Pprev)# 存 储 卷 积 网 络 的 输出 


个 卷 积 tetigi ere A RR P 
t ), proposal outputs) 


do 


v.weight:normal(0, math.sqrt(2 / n)) 


# 创 建 建议 网 络 模型 I， 在 最 后 
local model = nn.gModule({ input 
local function init (module, 
local function init module (m) 
for k,v in pairs (m 
local n - 
v.bias:zero() 
end 
end 


module:apply (init module) 


end 


init (model, 


return model 


end 


# 创 建 分 类 网 络 








local 


function create classi 








net =n 





oca] 


# 循 环 














for 


建立 分 类 网 络 


prev input count 


n.Sequent 





tial 


'nn.SpatialConvolution') 





inputs 








end 


local 


Li) 
net:add(n 





net:a 
end 
net:add(n 
f l.drop 
net:a 
end 
prev inpu 





H- 





local 


node = 





# 以 下 网 络 分 为 回 
# 回 归 输 出 


ocal rout = 











# 分 类 输出 


local 











cnet 


input = 


in ipairs (class 








dd (nn. 


n.PReLU()) 


out and l.dropout » 0 
Dropout (l.dropout 


dd (nn. 





t count = 





13 


fication | net (inputs, class count, 


()# 声 明 一 个 序列 网 络 


| layers) do 
n.Linear (prev input count, 1.n)) 
if l.batch norm then ` B 
d BatchNormalization (1 





n 


ic E 





net (input) 


归 和 分 类 分 支 








then 


) 





— 





nn.Linear(prev input count, 4) (node) 








= nn.Sequential () 
cnet:add(nn.Linear(prev input count, 





class count)) 


# 增 加 全 连接 


.n)) SJliBatchNormalization/É 





1)) 


s[#conv outputs]) 


class layers) 





nil 





conv steps) 


1,1)) 





l.padW, l.padH, l.dropout, l.conv steps) 


.filters, a.n, a.kW) (conv outputs [a.input])) 


此 完成 网 络 模型 的 建立 。 








cnet:add(nn.LogSoftMax () ) # 添 加 LogSoftMax 分 类 层 

ocal cout = cnet (node) 

# 创 建 检 测 框 微调 + 分 类 输出 

local model = nn.gModule({ input }, { rout, cout }) 

local function init (module, name) 

local function init module (m) 

for k,v in pairs (m:findModules (name) ) do 
local n = v.kW * v.kH * v.nOutputPlane 
v.weight:normal(0, math.sqrt(2 / n)) 
v.bias:zero() 















































end 
end 
module:apply (init module) 
end 
init (model, 'nn.SpatialConvolution') 
return model 































































































end 
# 创 建 整 个 网 络 模型 
function create model (cfg, layers, anchor nets, class layers) 
# 分 类 网 络 输 入 值 i i 
local cnet ninputs = cfg.ROI pooling.kh * cfg.ROI pooling.kw * layers[#layers] .filters 
local model = {cfg = cfg, 
layers = layers, 
pnet = create proposal net(layers, anchor nets), 
cnet = create classification net (cnet ninputs, cfg.class count + 1, class layers) } 
return model 
end 


(3) 候选 区 域 生成 


Anchors.lua 是 候选 区 域 生 成 文件 ， 该 文件 定义 了 锚 点 类 ， 通 过 创建 锚 点 矩 形 、 寻 





近 值 、 寻 找 和 矩形 X 和 Y 范 围 、 寻 找 最 佳 目标 一 系列 函数 实现 候选 区 域 的 选取 。 


Anchors. lua 

require 'Localizer' 

iE X 2SAnchors 

local Anchors = torch.class('Anchors') 

local BIN SIZE = 16# 将 中 心 点 映射 到 附近 的 锚 点 的 粒度 
# 初 始 化 Anchors 
Function Anchors:  init(proposal net, scales) 
# 创 建 localizers 

self.localizers = {} 

for i=l,#scales do 


self.localizers[i] = Localizer.new(proposal net.outnode.children[i]) 


q 
# 生 成 垂直 和 水 平 最 小 -最 大 锚 点 查找 表 
local width, height = 200, 200 ”## 特 征 层 最 大 的 大 小 
# indices: scale, aspect-ratio, i, min/max 
self.w = torch. os s. a width, 2) 
self.h = torch.Tensor (#scale 3, height, 2) 
# 创 建 简单 图 以 使 簿 能 够 找到 附近 的 销 入 (例如 ， S LC 练 ) 
se] = fJ 
se] = At 
local function add(map, i, j, V, X) 
local key = math.floor(x / BIN SIZE) 
if not map[key] then 
map[key] = {} 
end 
table.insert (map[key], í i, j, v J 
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end 





for i,s in ipairs (scales) do 

# 宽 度 、 高 度 为 s^2 像 素 ， 宽 高 比 为 1: 、2: 1. 1: 2 的 和 矩形 杠 
ocal a = s / math.sqrt (2) 
local aspects ={{s, s}, í 2%a, a}, í a, 2*a } } 
for j; b in ipairs (aspects) do 
oca] — self.localizers[i] 
for y-l, height do 
ocal r = l:featureToInputRect (0, y-1, 0, y) 
local centerX, centerY - r:center() 
r — Rect . fromCenterWidthHeight (centerX, centerY, b[1], b[2]) 


































































































self.h[ti, j, y, 1)] = r.minY 

self ie j, y, 23] = r.maxY 

add(self.cy, i, j, y, centerY) 
end 











for x-l, width do 

ocal r = l:featureToInputRect (x-1, 0, x, 0) 

local centerX, centerY - r:center() 

r — Rect.fromCenterWidthHeight (centerX, centerY, b[1], b[2]) 





















































self.w[(i, j, x, 1}] = r.minX 
sel ee j, x, 2)] = r.maxX 
add(self.cx, i, j, x, centerX) 
end 
end 
end 
end 
HORA EH SA yE JE 











ocal w, h = self.w, self.h 

local anchor rect = Rect.new(w[{layer, aspect, x, 1)], 
h[(layer, aspect, y, 1]], 
w[(layer, aspect, x, 2}], 

h[(layer, aspect, y, 2}]) 





function Anchors:get (layer, aspect, y, x) 























anchor rect.layer = layer 

anchor rect.aspect = aspect 

anchor rect.index = { { aspect * 6-5, aspect * 6 }, y, X} 
return anchor rect 








end 

# 寻 找 临 近 值 
function Anchors: findNearby (centerX, centerY) 

ocal found = {} 

local xl, yl = self.cx[math.floor(centerX / BIN SIZE)], 
self.cy[math.floor(centerY / BIN SIZE) ] 



















































































if xl and yl then 

for i=1,#yl do 

local y = yl [i] 

for j=1l,#x1 do 

local x = xl[j] 

if y[1] == x[1] and y[2] == x 
table.insert(found, self: 





























then 


[2] 
get (y[1], yl2], vI3], x[3])) 








end 
end 
end 
end 
return found 





end 

# 寻 找 矩 形 XY 范 转 

function Anchors:findRangesXY (rect, clip rect) 
local function lower bound(t, value) 

local low, high = 1, t:nElement () 

while low <= high do 

local mid = math.floor((low + high) / 2) 

f t[mid] >= value then high = mid - 1 
elseif t[mid] < value then low = mid + 1 end 

end 

return low 


















































H- 

















end 
loca] function upper ] bound (t, value) 
ocal low, high = t:nElement () 
while low <= high do 
local mid = math.floor((low + high) / 2) 
if t[mid] > value then high = mid - 1 
elseif t[mid] <= value then low = mid + 1 end 
end 















































return low 
end 
local ranges = {} 
local w,h = self.w, self.h 
for i=1,4 do # 尺度 
for j=1,3 do # 长 宽 比 
local clx, cly, cux, cuy # BWA FIRER GZO 
if clip rect then 


; 
# 锚 的 所 有 项 点 必须 位 于 裁剪 矩形 中 《例如 和 输入 图 像 矩 形 ) 


































































































# x 开始 : a.minX >= r.minX 
clx = lower bound(w[{i, j, {}, 1)], clip rect.minX) 
# y 开 始 : a.minY >= r.minY 7 
cly = lower bound(h[{i, j, {}, 1)], clip rect.minY) 
# x 结束 :a.maxX > r.maxX = 
cux = upper bound(w[{i, j, {}, 2}], clip rect.maxX) 
# y 结 束 :a.maxY > r.maxY 加 
cuy = upper bound(h[{i, j), (í), 2]], clip rect.maxY) 
end 
local 1 = { layer = i, aspect = j } 





# 至 少 有 一 个 顶点 必须 位 于 rect 中 




















































































































# x 开始 : a.maxX > r.minX 
1.1x = upper bound(w[(i, j, {}, 2}], rect.minX) 
# y 开 始 : a.maxY > r.minY 
l.ly = upper bound(h[{i, j, {}, 2}], rect.minY) 
# x 结束 :  a.minX >= r.maxX 
l.ux = lower bound(w[{i, j, í), 1}], rect.maxX) 
# y 结 束 :  a.minY >= r.maxY 
l.uy = lower bound(h[{i, j, Í), 1]], rect.maxY) 
if clip rect then 
l.lx = math.max(l.lx, clx) 
.ly = math.max(l.ly, cly) 
l.ux = math.min(l.ux, cux) 
l.uy = math.min(l.uy, cuy) 
end 
if l.ux > l.l1x and l.uy > l.ly then 
l.xs = w[(i, j, {l.1x, l.ux-1), {FH 
Leys: = Aro gk £T yy louysSlh 1 H3 
ranges [#ranges+1] = 1 
end 
end 
end 
return ranges 
end 
# 寻 找 最 佳 目 标 





function Anchors:findPositive(ROI list, clip rect, pos threshold, neg threshold, include best) 
local matches = () 
local best set, best iou 
for i,ROI in ipairs(ROI list) do 
if include best then 
best set = () + 如 果 找 到 正 条 目 ， 最 好 设置 为 ni] 
best iou = -1 
end 
# 评估 所 有 重 炙 锚 点 的 ToU〔 模 型 产生 的 目标 窗口 和 原来 标记 窗口 的 交 车 率 ) 
local ranges = self:findRangesXY (ROI.rect, clip rect) 
for j,r in ipairs(ranges) do 
# 从 xs，Ys 范 围 列 表 生 成 所 有 候选 锚 点 
for y-l,r.ys:size()[1] do 
local minY, maxY = r.ys[{y, 1)], r-ysl{y, 2}] 
for x=1,r.xs:size() [1] do 
# 创建 rect, add layer & aspect info 
local anchor rect = Rect.new(r.xs[(x, 1}], minY, 
r.xs[{x, 2}], maxY) 

























































































































































































anchor rect.layer = r.layer 

anchor rect.aspect = r.aspect 

anchor rect.index = { { r.aspect * 6 - 5, r.aspect * 6 }, 

ú r.ly + y - 1, r.lx + x - 1} 

local v = Rect.IoU(ROI.rect, anchor rect) 

if v > pos threshold then i 

table.insert (matches, { anchor rect, ROI }) 

best set = nil 

elseif v » neg threshold and best set and v »- best iou then 

if v - 0.025 » best iou then 
best set = {} 









































end 
table.insert(best set, anchor rect) 
best iou = v 
end 
end 











end 
end 
if best set and best iou » 0 then 
for i,v in ipairs(best set) do 
table.insert (matches, ( v, ROI )) 




















end 
end 

end 

return matches 
end 
# 负 样本 
function Anchors:sampleNegative (image rect, ROI list, neg threshold, count) 

# 获取 图 像 内 所 有 锚 点 的 范围 
local ranges = self:findRangesXY (image rect, image rect) 
# 使 用 随机 抽样 
local neg = () 
local retry = 0 
while #neg < count and retry < 500 do 


# 选择 随机 锚 点 













































































ocal r = ranges[torch.random() % #ranges + 1] 
local x = torch.random() % r.xs:size() [1] + ] 
local y = torch.random() % r.ys:size() [1] 1 

















local anchor rect = Rect.new(r.xs[{x, 1}], r.ys[{y, 1}], r.xs[íx, 2}], 
r.ys[tv, 2}]) 
anchor rect.layer = r.layer 
anchor rect.aspect = r.aspect 
anchor rect.index = { ( r.aspect * 6 - 5, r.aspect * 6 }, r.ly * y - 1, 














































































































r.lx + x- 1 } 
# 测试 所 有 的 ROI 
local match = false 
for j,ROI in ipairs(ROI list) do 
if Rect.IoU(ROI.rect, anchor rect) > neg threshold then 
match = true 
break 
end 
end 
if not match then 
retry = 0 
table.insert(neg, { anchor rect }) 
else 
retry = retry + 1 
end 
end 
return neg 
end 
# 输 入 转 为 锚 点 
function Anchors.inputToAnchor (anchor, rect) 
local x = (rect.minX - anchor.minX) / anchor:width () 
local y = (rect.minY - anchor.minY) / anchor:height () 
local w = math.log(rect:width() / anchor:width () ) 
local h = math.log(rect:height() / anchor:height ()) 
return torch.FloatTensor({x, y, w, h}) 
end 
# 锚 点 转 为 输入 














function Anchors.anchorToInput (anchor, t) 

return Rect.fromXYWidthHeight(t[1] * anchor:width() + anchor.minX, 
t[2] * anchor:height() + anchor.minY, 
math.exp(t[3]) * anchor:width(), 
math.exp(t[4]) * anchor:height() ) 

















end 


(4) 数据 集 处 理 


NE A um i cs 其 根据 配置 文件 中 的 参数 对 图 像 进行 尺寸 优化 、 分 配 尺度 、 裁 前 图 像 、 水 平反 转 、 坚 直 反 转 操作 ， 并 利用 
HORZ 











BatchIterator.lua 
# 该 文档 直接 对 训练 集 进行 打 乱 并 做 基本 的 图 像 处 理 
require 'image' 
require 'utilities' 
require 'Anchors' 
# 自 定义 BatchIterator 类 
local BatchIterator = torch.class('BatchIterator') 
# 随 机 打 乱 数据 较 集 中 的 数据 的 顺序 ， 增 加 随机 性 
local function randomize order (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17529/OEBPS/Text/...) 
local sets = ( http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17529/OEBPS/Text/... } 
for i,x in ipairs(sets) do 

if x.list and #x.list > 0 then 

x.order:randperm(#x.list)  # 打 乱 顺序 

























































































































































































end 
x.i-1 # 复位 索引 位 置 
end 
end 
# 调 用 randomi ze order 打 乱 数 据 ， 然 后 顺序 输出 训练 集中 的 所 有 数据 
local function next entry (set) 
if set.i > #set.list then 
randomize order (set) 
































end 
local fn = set.list[set.order[set.i]] 
set.i = set.i + 1 

return fn 

















end 
# 转 换 图 像 和 ROI， 并 存储 ROI 至 数组 中 


local function transform example (img, ROIs, fimg, fROI) 

























































































local result = {} 

local d = img:size() 

assert (d:size() == 3) 

img = fimg(img, d[3], d[2]) PEREZ 

ocal dn = img:size() 

local img rect Rect.new(0, 0, dn[3], dn[2]) 








if ROIs then 
for i=1,#ROIs do 
local ROI = ROIs[i] 

























































































ROI.rect = fROI(ROI.rect, d[3], d[2]) 4s 转换 ROI 
if ROI.rect then 
ROI.rect = ROI.rect:clip(img rect) 
if not ROI.rect:isEmpty() then 
result[#result+1] = ROI 
end 
end 


end 
end 
return img, result 





end 
# 将 原始 图 像 和 ROI 放 大 或 缩小 指定 倍数 并 保存 
local function scale (img, ROIs, scaleX, scaleY) 

scaleY = scaleY or scaleX 

return transform example (img, ROIs, 
function(img, w, h) return image.scale(img, math.max(1, w * scaleX),math.max(1, h * scaleY)) end, 
function(r, w, h) return r:scale(scaleX, scaleY) end) 

































































end 
# 图 像 和 ROI 水 平 翻转 
local function hflip(img, ROIs) 
return transform example(img, ROIs, 
function(img, w, h) return image.hflip(img) end, 


function(r, w, h) return Rect.new(w - r.maxX, r.minY, w - r.minX, r.maxY) end ) 












































end 
# 图 像 和 ROI 垂 直 翻 转 
local function vflip(img, ROIs) 
return transform example(img, ROIs, 
function(img, w, h) return image.vflip(img) end, 
function(r, w, h) return Rect.new(r.minX, h - r.maxY, r.maxX, h - r.minY) end) 
























































end 

PHE AR Fe HR HB eA) BE, IP TERR BY a OR ESR EROTIK E 

local function crop(img, ROIs, rect) 
return transform example(img, ROIs, 

function(img, w, h) 

return image.crop(img, rect.minX, rect.minY, rect.maxX, rect.maxY) end, 

function(r, w, h) return r:clip(rect):offset(-rect.minX, -rect.minY) end ) 






















































































end 
IB WT n 1 
function BatchlIterator:  init(model, training data) 
# 输 入 参数 是 模型 以 及 训练 集 【仅仅 标签 数据 ) 
# 使 用 nn 中 方法 设置 归 一 化 图 像 尺度 
# 使 用 Anchors 获 取 选 框 以 及 生成 多 个 并 行 子 网 路 
# 构 建 训 练 集 、 验证 外 上 i ps nas 

local cfg = = ode : 
T FRACS (CULAR NR BCE SO 
self.ground truth = training data.ground truth 
self.cfg = cfg 
if cfg.normalization.method == 'contrastive' then 
# 用 SpatialContrastiveNormalization 函 数 加 载 一 维 高 斯 模板 对 Y 通 道 滤波 
self.normalization = nn.SpatialContrastiveNormalization(1, 
image.gaussianlD(cfg.normalization.width)) 




































































































































































else 

















self.normalization = nn.Identity() 





end 
#pnet 建 议 网 络 ， 载 入 候选 区 域 
lf.anchors = Anchors.new(model.pnet, cfg.scales) 


self 
# 指 标 张 量 定义 评估 顺序 





































































































self.training = { order = torch.IntTensor(), list = training data.training set } 
self.validation = { order = torch.IntTensor(), list = training data.validation set } 
f.background = { order = torch.IntTensor(), list = training data.background files or {} } 

HTRURUE i i 
randomize order(self.training, self.validation, self.background) 

end 

UIN 

Function BatchIterator:processImage (img, ROIs 




































































) 
He ctr Hj SHUN BIGGER THEE 分 配 尺 度 、 裁 剪 图 像 、 水 平反 转 、 竖 直 反 转 操作 
# 将 原 图 像 以 及 ROI 区 域 全 部 进行 操作 
local cfg = self.cfg 
# 数 据 增 广 
local aug = cfg.augmentation 
# 确定 最 佳 调整 大 小 


local img size = img:size() 




















































































































loca] tw, th = find target size(img size[3], img size[2], cfg.target smaller side, cfg.max pixel size) 
ocal scale X, scale Y = tw / img size[3], th / img size[2] 
# 随机 缩放 
if aug.random scaling and aug.random scaling > 0 then 
scale X = tw * (math.random() - 0.5) * aug.random scaling / img size[3] 
scale Y = scale X + (math.random() - 0.5) * aug.aspect jitter 
end 








img, ROIs = scale(img, ROIs, scale X, scale Y) 
HU CSREES Ab MER, SUIS RRA GE Pet 
img size = img:size() 
if img size[3] > tw or img size[2] > th then 

tw, th = math.min(tw, img size[3]), math.min(th, img size[2]) 

local crop rect = Rect.fromXYWidthHeight ( i 
math.floor(math.random() * (img size[3]-tw)), 
math.floor(math.random() * (img size[2]-th)), 
















































































img, ROIs = crop(img, ROIs, crop rect) 
end 


# 水 平 翻转 操作 








£ aug. hi 
i 





end 
end 
# 垂直 翻转 操 
af aug. vi 
i 











end 
end 
Hn 值 归 一 化 


C 








Flip and aug. 
f math. random () 
img, 


Flip and aug. 
f math. random () 
img, 


fg .normal 





gum 








ROI 





S — hi 











fE 

flip > 0 then 
aug.vflip then 
ip(img, ROIs) 











RO] 








[s 








ization.centering then 








for 1 





,3 do 





img [i] 





end 
end i 
# 标 准 差 


if c 











img[i]:add(-img[i]:mean()) 








for 1 


fg .normal 


ization.scaling then 
[3-00 





local 





s = img[i] :std()# 标 准 差 











if 


s > le-8 then 
img [i] img[i] :div(s) 





end 


end 
end 
img [1] se 
return img, 
end 


HIE ARI RAE 




















lf.normalization:f 
ROIs 


orward(img[((1))]) # 归 一 化 亮度 通 





























function BatchI 


terator:nextTraining (count) 





道 jmg 





# 使 用 局 部 函数 集中 所 有 训练 集 数 据 计算 
ocal cfg = self.cfg 

local batch = {} 
count = count or cf 
# 使 用 local function 
ocal function try . 
local fn = next entry(self.training) 

# 复 制 ROIs 的 ground_truth 数 据 (将 被 操纵 ) 

local ROIs = deep copy(self.ground truth[ 
































g.batch size 


允许 在 出 现 图 像 加 载 故障 的 情况 下 提 
add next () 























前 退出 


















































fn] .ROI 
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# 加 载 图 像 ， 变 形 pcaLI， 因 为 图 像 网 络 包含 无 效 的 非 jpeg 文 从 


= 














local status, img = pcall (function () 
return load image (fn, cfg.color space, ci 
f not status then 
#pcal1 失 败 ， 图 像 文 件 损坏 
print (string.format ("Invalid image '%s' 
return 0 
end 
local img size = img:size() 
if img:nDimension() ~= 3 or img siz 
print (string. format ( > 
"Warning: Skipping image 
return 0 
end 
local img, ROIs self 
img size = img: Í # 获取 最 终 大 小 
f img size[2] 128 or img size[3] « 128 then 
FID Bod DH 图 像 


print (string. format ( 
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9. QW 
6S 














[1] 

















1O 


Ss! 








eee [Image (img, ROI 





s) 











L- 























12g! 


. Unexpected 


s) 


fg.examples bas 








| path) end) 


, fn, img)) 


~= 3 then 


Invalid size a 


channel count: 


Sd 





fn ? 


img size[1], 


img:nDimension())) 








fter process: (%dx%d)", 








"Warning: Skipping image 
return 0 

end 

# 寻 找 正 样本 
ocal img 
local posi 





图 像 
rect = Rect 
tive = se] 








.new(0, 0, 
f.anchors:findPositive (ROI 














S, 





img size[3], img size[2]) 
img rect, 





cfg.positive threshold, c 











# 随 机 负 样 本 图 像 

ocal negative = Se 

local count = #positive + #negativ 

if cfg.nearby aversion then 
local nearby negative 

T8 JR PES e EE T Se PB SA 

for i,p in ipairs(positive) do 

ocal cx, cy = p[1]:center () 

loca] nearbyAnchors self.anchors 

for i,a in ipairs (nearbyAnchors) do 
if Rect.IoU(p[1], a) < cfg.negat 

table.insert (nearby negative, 

end 

end 






































{} 


















































end 
local 
shuff 
for 


c = math. min (#positive, count) 
le n(nearby negative, c) 

i=1,c do 
table.insert (negat 
count = count + 1 


























end 
end 
UE (未 执行 ) 
false then 
ocal dimg = image.yuv2rgb (img) 
local red = torch.Tensor((1,0,0]) 
local white torch.Tensor({1,1,1}) 
#Anegative., positive. ROIs EimtE 
for i=1,#negative do 
draw rectangle (dimg, negative[i][1], red) 
























































end 
local green = torch.Tensor((0,1,0]) 
for i=1,#positive do 

draw rectangle (dimg, 








end 
for i=1,#ROI 

draw rec 
end 


# 保 存 图 片 


image.saveJPG (string. 








s do 
tangle 














ROI 





(dimg, s[i] 


.rect, white) 





s 














end 
table.insert (batch, 
# 图 像 的 路 径 、 图 像 的 宽 、 图 


print (string.format("'%s' 





























(cdxsd); p: sd; n: sd", 





return count 


















































































































































{img = img, positive = posit 
像 的 高 、positive 个 数 、negative 的 个 数 


fn, img size[3], img size[2], #posi 


f.anchors:sampleNegative (img rect, ROI 


ive, nearby negative[i]) 


positive[i] [1], green) 


format ('anchors%d.jpg', 











ive, 


tive, 





fg.negative threshold, c 











c 





fg.negative threshold, 


fn, img size[3], img size[2])) 





fg.best match) 





16) 





:findNearby (cx, cy) 


tive threshold then 
{ a }) 





self.training.i), dimg) 





negativ 





= negative}) 


#negative) ) 














end 
# 增 加 背景 示例 
if #self.background.list > 0 then 
local fn = next entry (self.background) 
local status, img = pcall(function () 
return load image (fn, cfg.color space, cfg.background base path) end) 
if status then 
img = self:processImage (img) 
local img size = img:size() # 获 得 最 终 大 小 
if img size[2] >= 128 and img size[3] >= 128 then 
ocal img rect - Rect.new(0, 0, img size[3], img size[2]) 
HEE SLUM S negative% i u 
ocal negative = self.anchors:sampleNegative (img rect, {}, 0, 
math.floor (count * 0.05)) 
table. insert (batch, { img = img, positive = {}, negative = negative }) 
count = count - #negative 
# 输 出 背景 图 像 的 路 径 以 及 大 小 
print(string.format('background: ss ($dx$d)', fn, img size[3], img size[2])) 
end 
else 
#pcal1 失 败 ， 图 像 文件 损坏 
print (string.format ("Invalid image '%Ss': $s", fn, img)) 
end 
end 


while count > 0 do 

count = count - try add next () 
end 
return batch 





end 
HIE ACUI ZAG HY Sor HE ERE 
function BatchIterator:nextValidation (count) 
# 使 用 局 部 函数 集中 所 有 验证 集 数 据 计算 
ocal cfg = self.cfg 
local batch = {} 
count = count or 1 
HEA local function 人 允许 在 出 现 图 像 加 载 故 障 的 情况 下 提前 退出 
whil le count > 0 do 
ocal fn = next entry(self.validation) 
# 加 载 图 像 ， 变 形 pcall， 因 为 fen to A X RUE pea HE 
ocal status, img = pcall(function () 
return load image(fn, cfg.color space, cfg.examples base path) end) 
if not status then 
#pcal1 失 败 ， 图 像 文件 损坏 
print (string.format ("Invalid image '%Ss': $s", fn, img)) 
goto continue 
end 
local img size = img:size() 
f img:nDimension() ~= 3 or img size[1] ~= 3 then 
print (string. format ( 
"Warning: Skipping image '$s'. Unexpected channel count: sd (dim: sd)", fn, img size[1], img:nDimension() ) ) 
goto continue 
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Lu. 























end 
# 复 制 ROIs 的 ground _ truth 数据 〈 将 被 操纵 ) 
local ROIs = deep | copy (self. ground truth[fn].ROIs) 
local img, ROIs = "n f:processImage (img, ROIs) 
img size = img:size() # 获 取 最 终 大 小 
if img size[2] < 2 or img size[3] < 128 then 
print (string. format ( 
"Warning: Skipping image '%s'. Invalid size after process: (%dx%d)", 
fn, img size[3], img size[2])) 
goto continue 

























































































end 
table.insert(batch, { img = img, ROIs = ROIs ]) 
count = count - 1 














::continue:: 
end 
return batch 
end 
(5) 模型 











objective.lua 文 件 是 模型 局 部 冰 数 lossAndGradient 是 网 络 ， 阔 数 的 参数 列表 仪 有 一 个 权重 和 矩阵， 如 果 权 重 和 矩阵 具有 新 值 ， 则 将 新 值 拷贝 至 权重 矩阵 中 。 具 体 过 程 
如 下 : 首先 进行 梯度 初始 化 (SORE) ， 然 后 对 各 种 变量 进行 初始 化 ， 包 括 统计 预测 阶段 的 评价 变量 以 及 微调 阶段 的 评价 变量 。 还 有 就 是 获取 批量 数据 中 的 图 像 ， 并 获取 ROI 的 正 样本 以 及 大 量 的 负 样 本 。 
主体 文件 中 通过 前 向 传播 计算 梯度 、 反 向 传播 进行 权 值 更 新 ， 最 后 记录 建议 阶段 和 分 类 阶段 的 损失 值 以 绘制 训练 阶段 的 图 像 。 











objective.lua 

#require 'cunn' 

require "BatchIterator' 
require 'Localizer' 











































































































# 提 取 ROI 池 化 的 输入 
function extract ROI pooling input (input rect, localizer, feature layer output) 
local r = localizer:inputToFeatureRect (input rect) 
# 使 用 math «min Fl Ee IE B Rb EAS IZ i 
local s ature layer output:size() 
r = r:clip(Rect.new(0, 0, s[3], s[2])) 
local idx = ( í), í math.min(r.minY + 1, r.maxY), r.maxY }, 

















{ math.min(r.minX + 1, r.maxX), r.maxX ] } 
return feature layer output[idx], idx 














end 
# 创 建 目标 (模型 训练 的 主体 函数 ) 

function create objective (model, weights, gradient, batch iterator, stats) 
local cfg = model.cfg 






























































local pnet = model.pnet 
local cnet = model.cnet 
local bgclass = cfg.class count + 1 # RRR 

















local localizer Localizer.new (pnet. outnode. children [5]) 
# local softmax nn.CrossEntropyCriterion () :cuda () 
f local cnll = nn.ClassNLLCriterion () :cuda () 
# local smoothL1 = nn.SmoothL1Criterion () :cuda () 
local softmax = nn.CrossEntropyCriterion() # 代 价 函 数 
local cnll = nn.ClassNLLCriterion ()  # 代 价 函 数 
local smoothL1 = nn.SmoothLiCriterion() # 代 价 函数 
smoothLl.sizeAverage = fals 
local kh, kw = cfg.ROI pooling.kh, cfg.ROI pooling. kw 
local cnet input planes = model.layers[#model.layers] .filters 
# local amp = nn.SpatialAdaptiveMaxPooling (kw, kh) :cuda() 
# local amp = nn.SpatialAdaptiveMaxPooling (kw, kh) () 
# 项 定 了 输出 的 w 和 ?的 mx pool ing 
local amp = nn.SpatialAdaptiveMaxPooling (kw, kh) 
# 局 部 函数 cleanAnchors 
# 清 理 锚 点 ， 将 网 络 预测 的 目标 与 实际 目标 进行 比 对 
# 在 预测 到 的 区 域 中 ， 将 小 于 实际 上 Ee PCI s D cu 点 列表 中 清除 
# 保 证 目标 一 定 在 被 检测 区 域 中 
local function cleanAnchors (examples, outputs) 
local i = ] 
while i <= #examples do 
local anchor = examples [i][1] 
local fmSize = outputs [anchor.layer]:size() 
if anchor.index[2]???>???fmSize[2] or anchor.index[3] > fmSize[3] then 
table.remove (examples, i) # 访问 将 导致 超出 范围 的 异常 
else 





C1 
local anchors = batch iterator.anchors # 销 点 
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end 

end 
# 局 部 函数 lossAndGradient 
# 调 用 建议 网 络 pnet 前 向 输出 预测 结果 
# 调 用 cleanaAnchors 函 数 清除 一 些小 于 实际 样本 的 销 点 区 域 
local function lossAndGradient (w) 
if w ~= weights then 

weights: copy (w) 
end 
gradient : zero () 


# 建 议 阶 段 统计 



















































































ocal cls loss, reg loss = 0, 0 
local cls | | count, reg count = 0, 0 
ocal delta outputs = {} 

# 微调 和 分 类 阶段 统计 

oca] creg loss, creg count = 0; 0 
local ccls loss, ccls count = 0, 0 


# 启用 dropouts 
pnet:trainino() 
cnet:trainino() 
local batch = batch iterator:nextTrainino() 
























































for i,x in ipairs (batch) do 
# local img = x.img:cuda() ”如 果 在 GPU 上 运行 ， 将 batch 转 换 为 CUDA 
local img = x.img 
local p = x.positive # 获取 正 样本 和 负 样 本 锚 点 示例 
ocal n = x. ` ive 
# 运行 前 向 卷 积 
local outputs = pnet: forward (img) 
# 确保 所 有 示例 错 | 位 于 现 有 要 素平 面 内 




















cleanAnchors (p, outputs) 
leanAnchors (n, outputs) 
清除 每 个 新 图 像 的 增 量 值 
or i,out in ipairs(outputs) do 
if not delta outputs[i] then 
#delta_outputs[i] = torch.FloatTensor () :cuda () 
delta outputs[i] = torch.FloatTensor () 
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end 





delta ou 


tputs[i] 











delta ou 


end 





local 


ROI 





| pool 


tputs [i] 





| state = { 





local 
local 














for i 








loca 





local 


ROI 


x[1 
= x[2] 





local 





local 





local 








:resizeAs (out) 
:zero() 


} 


input size = img:size() 
cnetgrad 
# 处 理 正 样本 设置 

,X in ipairs(p) do 
l anchor - ] 


anchor.layer 


= outputs[ 





1] 











local 





local 





local 





# 分 类 


local 


cls loss 
de = 





a[{{1 


local 


:211] 


# 边 框 回归 








# local 


lta out 


reg : 
reg - 


= delta outputs[1] 


— anchor.index 


out [idx] 
delta out[ 





= cls loss 
softmax:backward (v 





:add (dc) 


out = 


vit{ 


idx] 











+ SO 





ftmax:forward(v[{{1, 2}}], 
|? 


[{{1, 2}}], 1) 


3, 6}}] 








target 





oca] 


reg 


proposal 


= Anchors.inputToAnchor (anchor, ROI 
= Anchors.anchorToIl 








reg 
local 


loss 
dr = 





local 


AL{{3,6}}]: 
# 自 适应 最 大 池 化 操作 


= reg loss 





smoothL1 
add (dr) 


idx = ext 











local 


pi, 





po = amp:f 
table.insert (ROI 


:backward(reg out, 


ract ROI 
orward(pi):view(kh * 


+ smoothL1: 





forward(reg out, 


reg target) 











.rect, 


1) 





* 10 





.rec 
nput (anchor, reg out 
reg target 
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) * 10 





| pooling input (ROI 








pool 


state, 





end 
# 处 理 负 样 


for i 
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{ input 





= pi,input idx = idx,anchor = 


anchor, 














reg ] 
output = 








loca 
local 





] 





local 
local 





out = 


,X in ipairs(n) do 
l anchor - 


x[1] 








proposal = reg proposal,ROI = 
po:clone(),indices - 


anchor.layer 


outputs [ 
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local 





local 
local 
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local 
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local 


# 自 适应 最 
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[idx] 
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s loss 
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pi, 


大 池 化 操作 


extract ROI 
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local 





po = amp: 
table.insert (ROI 


‘tmax : backward (v 


forward (pi) :view (kh * 


= delta outputs [1] 


ndex 


idx] 
F PSG 














ftmax:forward(v[{{1, 2))], 
]; 


[((1, 2}}], 2) 





pog input (anchor, 








| pool state, 





end 


# 微调 阶段 


# 通过 分 





类 网 络 提取 RO] 





{ input 


output = 
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, 创建 cnet 输入 batch 
tate » 0 then 





| pool s 





f 4ROI 
local 





local 
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torch.CudaTensor (#ROI 
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local gi = pnet:backward(img, delta outputs) 
# print(string.format('$f; pos: $d; neg: 
reg count = reg count + #p 
cls count = cls count + #p + #n 
creg count = creg count + #p 
ccls count = ccls count + 1 
end 
# 尺度 梯度 
gradient:div(cls | count) 
local pcls = cls loss / cls count # 建议 分 类 的 损失 值 
local preg = reg loss / reg count ELE hiep m 
local dcls = ccls loss / ccls count # CE 
local dreg = creg loss / creg count 4 检测 边框 微调 的 损失 值 
print(string.format('prop: cls: $f ($d), reg: Sf (%d); det: 
# 存 储 四 个 值 
table.insert(stats.pcls, pcls) 
table.insert (stats.preg, preg) 
table.insert(stats.dcls, dcls) 
table.insert(stats.dreg, dreg) 
local loss = pcls + preg 
return loss, gradient 
end 
return lossAndGradient 
end 
(6) 模型 检测 


有 了 训 | 经 


分 别 对 每 一 类 物体 进 4 


Detection.lua 

















该 网 络 






























































进行 目标 检测 了 ，Detection.lua 文 件 定义 了 一 个 检测 类 ， 
了 非 极 大 值 抑制 以 剔除 重 老 建议 框 ， 最 终 


* 10 


{ crdelta, 


ccdelta }) 


lanes) 


target[i] = Anchors.inputToAnchor (x.reg proposal, x.ROI 
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# 和 忽略 负 样本 例子 
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| delta[i]: 
view(cnet input planes, kh, kw))) 
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$d', gradient:max(), 4p, #n)) 





)) 





f, reg: 


pool state, kh * kw * cnet input planes) 


kh * kw * cnet input planes) 


.rect) 








经 过 


初始 化 加 载 模型 
冬 得 到 每 个 类 别 中 回归 修正 后 的 得 分 最 高 的 窗口 。 


、 候 选 


区 域 函数 ， 


Anchors.inputToAnchor (anchor, ROI 


ASSY 





$f', pcls, cls count, preg, reg count, dcls, dreg) ) 


后 在 检测 函数 中 输入 


.rect) # 回 归 


待 检测 图 像 进 行 

















目标 


分 类 和 回归 


， 利 用 窗口 得 


#require 'cunn' 
require 'image' 
require 'nms' 
require 'Anchors' 


















































































































































































































































































































































































































































































































































































































































































































































#E XX Detector 
local Detector = torch.class ('Detector') 
# 初 始 化 
function Detector: init (model) 
local cfg = model.cfg 
self.model = model 
self.anchors = Anchors.new(model.pnet, model.cfg.scales) 
self.localizer = Localizer.new (model.pnet.outnode.children[5]) 
#self.lsm = nn.LogSoftMax () :cuda () 
self.lsm = nn.LogSoftMax () 
#self.amp = nn.SpatialAdaptiveMaxPooling (cfg.ROI pooling.kw, 
# cfg.ROI pooling.kh):cuda|() 
self.amp = nn.SpatialAdaptiveMaxPooling(cfg.ROI pooling.kw, cfg.ROI pooling.kh 
end 
# 检 测 函 数 
function Detector:detect (input) 
local cfg = self.model.cfg 
local pnet = self.model.pnet 
local cnet = self.model.cnet 
local kh, kw = cfg.ROI pooling.kh, cfg.ROI pooling. kw 
local bgclass = cfg.class count + 1 # 背景 类 
local amp = self.amp 
ocal lsm = self.lsm 
ocal cnet input planes = self.model.layers[#self.model.layers].filters 
ocal input size = input:size() 
ocal input rect Rect.new(0, 0, input size[3], input size[2]) 
# 图 片 输入 网 络 
pnet:evaluate () 
#input = input:cuda () 
local outputs = pnet: forward (input) 
# 分 析 非 背景 分 类 的 网 络 输出 
local matches = {} 
local aspect ratios = 3 
for i=1,4 do ` 
local layer = outputs[i] 
local layer size = layer:size() 
for y=l,layer size[2] do 
for x=l,layer size[3] do 
local c = layer[{{}, y, xl] 
for a=l,aspect ratios do 
local ofs = (a-1) * 6 
local cls out = c[{{ofs + 1, ofs 2)1] 
local reg out = c[{{ofs + 3, ofs 6}}] 
# 分 类 
local c = lsm:forward(cls out) 
dif c[1] > c[2] then 
if math.exp(c[1]) > 0.95 then 
# 回 归 
local a = self.anchors:get (i,a,y,x) 
local r = Anchors.anchorToInput (a, reg out) 
if r:overlaps (input rect) then 
table.insert (matches, { p-c[1], a=a, r=r, l=i }) 
end 
end 
end 
end 
end 
end 
local winners = {} 
if #matches > 0 then 
# 非 最 大 值 抑制 
local bb = torch.Tensor(#matches, 4) 
local score = torch.Tensor (#matches, 1) 
for i=1,#matches do 
bb[i] = matches [i] .r:totensor () 
score[i] = matches[i].p 
end 
local iou threshold = 0.25 
local pick = nms(bb, iou threshold, score) 
flocal pick = nms (bb, iou threshold, 'area'!) 
local candidates = () > 
pick:apply(function (x) table.insert (candidates, matches[x]) end ) 
print (string. format ('candidates: $d', #candidates) ) 
# 区 域 分 类 
cnet :evaluate () 
# 创 建 cnet 输 入 batch 
#local cinput = torch.CudaTensor (fcandidates, 
# Cfg.ROI pooling.kw * cfg.ROI pooling.kh * cnet input planes) 
local cinput = torch. Tensor(4candidates, B i 
cfg.ROI pooling.kw * cfg.ROI pooling.kh * cnet input planes) 
for i,v in ipairs (candidates) do 
# 使 用 自 适 应 最 大 池 化 操作 
local pi, idx = extract ROI pooling input(v.r, self.localizer, outputs[5]) 
cinput[i] = amp:forward (pi): 
view(cfg.ROI pooling.kw * cfg.ROI pooling.kh * cnet input planes) 
end 
# 通 过 分 类 网 络 发 送 提 取 的 ROI 数 据 
local coutputs = cnet:forward(cinput) 
local bbox out = coutputs[1] 
local cls out = coutputs[2] 
local yclass = {} 
for i,x in ipairs(candidates) do 
x.r2 = Anchors.anchorToInput (x.r, bbox out[i]) 
local cprob = cls out[i] 
local p,c = torch.sort(cprob, 1, true) # 获 得 概率 和 分 类 指数 
x.class = c[1] 
x.confidence = p[1] 
print (x.class) 
if x.class ~= bgclass and math.exp(x.confidence) > 0.2 then 
if not yclass[x.class] then 
yclass[x.class] = {} 
end 
table.insert (yclass[x.class], x) 
end 
end 
for i,c in pairs(yclass) do 
# 填 充 矩 形 张 量 
bb = torch.Tensor (#c, 5) 
for j,r in ipairs(c) do 
bb[{j, {1,4}}] = r.r2:totensor () 
bb[{j, 5}] = r.confidence 
end 
pick = nms(bb, 0.1, bb[{{}, 5}]) 
pick:apply (function (x) table.insert (winners, c[x]) end ) 
end 
end 
return winners 
end 


(7) 主 函 数 


main.lua 文 件 是 该 目标 检测 程序 的 入 口 。 该 文件 定义 了 命令 行 操作 ， 以 及 加 载 模型 、 








main.lua 

# 加 载 程序 需要 的 包 (torch 文 伯 
require 'torch' 

require 'pl' 

require 'optim' 

require 'image' 


require 'nngraph' 


-所 需要 的 ) 


调用 训 





练 函 数 、 测 试 函 数 。 


require 'nms' 

require 'gnuplot' 
#require'cunn' 

# 加 载 自 定义 的 文件 

require 'utilities' 
require 'Anchors' 
require 'BatchIterator' 
require 'objective' 
require 'Detector' 
print ('#in main') 
#torch 命 令 行 操作 

cmd = torch.CmdLine () 
cmd: addTime () # 增 加 时 间 信 息 





















































































































































cmd:text () 

cmd:text('Training a convnet for region proposals!) 

cmd: text () 

cmd: text ('=== Training ===") 

#option 中 分 别 是 参 RA RB MELIUS 

cmd:option('-cfg', 'conFig./imagenet.lua', 'conFig.uration file') #imagenet 配 置 参数 
cmd:option('-model', 'models/vgg small.lua!, 'model factory file') # 模 型 参数 
cmd:option('-name', 'imgnet', 'experiment name, snapshot prefix') # 名 字 参 数 
cmd:option('-train', 'ILSVRC2015 DET.t7', 'training data file name')  ## 训 练 参 数 
cmd:option('-restore', '', 'network snapshot file name to load') # 存 储 参 数 
cmd:option('-snapshot', 1000, ‘snapshot interval') MER OCONEE 次 快照 
cmd:option('-plot', 100, 'plot training progress interval') # 每 迭代 100 次 进行 一 次 绘图 
cmd:option('-lr', 1E-4, 'learn rate') # 学 习 率 参数 
































#RMSprop 优 化 算法 (移动 平 艾 误 减 因 子 ) 
cmd:option('-rms decay', 0.9, 'RMSprop moving °. dissolving factor') 
cmd:option('-opti', 'rmsprop', 'Optimizer') ”# 优 化 参数 

cmd:text ('=== Misc ===') 

cmd:option('-threads', 8, 'number of threads')  # 国 值 参数 
#gpuigd 的 值 是 '-1' 时 ， 代 表 使 用 CPU 进行 训练 






















































































cmd:option('-seed', 0, 'random seed (0 = no fixed seed)') BTW 
cmd:option('-gpuid', -1, 'device ID (CUDA), (use -1 for CPU) ') 
print('Command line args:') 

local opt = cmd:parse(arg or {}) 

print (opt) 





print ('Options:') 
loca] ue = dofile(opt.cfg) 
print (cfg) 
| RARE 
e setdefaulttensortype('torch.FloatTensor') PAUA] Tensor% 
#cutorch.setDevice (opt.gpuid + 1) 等 于 0 的 时 候 nvigia 开始 计算 
torch.setnumthreads (opt.threads) #W ELA 
if opt.seed ~= 0 then  # 手 工种 子 
torch.manualSeed (opt.seed) 
#cutorch.manualSeed (opt.seed) 




























































































end 
# 绘 制 训练 过 程 曲 线 
function plot training progress (prefix, stats) 
local fn = prefix http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17529/OEBPS/Text/.. ' progress.png' # 图 片 名 
gnuplot .pngFig.ure (fn) 
gnuplot.title('Traning progress over time') ## 图 像 抬 头 
local xs = torch.range(1, #stats.pcls) | 
gnuplot.plot ( 
# torch.Tensor (stats.pcls) 为 Y 轴 的 值 
í 'pcls', xs, torch.Tensor(stats.pcls 
{ 'preg', xs, torch.Tensor(stats.preg 
( 'dcls', xs, torch.Tensor(stats.dcls 
í 'dreg', xs, torch.Tensor(stats.dreg 
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, t 建议 分 类 的 损失 值 
: & BOXE [BLA PRESA 8 


# 检测 边框 微调 的 损失 值 
) 


gnuplot.axis(( 0, #stats.pcls, 0, 10 )) #x 与 7 轴 的 取 值 范围 
gnuplot.xlabel('iteration') #X# 






































































































































gnuplot.ylabel('loss') s$YH 
gnuplot.plotflush () 

end 

# 加 载 模型 

















function load model (cfg, model path, network filename, cuda) 
# 获取 模型 及 配置 
ocal model factory = dofile (model path) 
local model = model factory(cfg) 
if cuda then 
model.cne 
model.pne 















































:cuda () 
:cuda () 








end 

# 将 pnet 和 cnet 的 参数 转换 为 一 维 
# 获 取 到 一 维 的 权重 和 梯度 

ocal weights, gradient = combine and flatten parameters (model.pnet, model.cnet) 
local training stats 

# 网 络 快照 存储 
if network filename and #network filename > 0 then 
local stored = load obj (network filename) 
training stats = stored.stats | 

weights:copy (stored.weights) 
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KE 


















































end 

return model, weights, gradient, training stats 
end 
# 进 行 图 像 训练 
function graph training(cfg, model path, snapshot prefix, training data filename, network filename) 

print('Reading training data file V'' http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17529/OEBPS/Text/.. training data filename httg 
local training data = load obj(training data filename) E i 5 
local file names = keys (training data.ground truth) 
print (string.format( i E 
"Training data loaded. Dataset: '$s'; Total files: $d; classes: $d; Background: $d)", 
training data.dataset name, #file names, #training data.class names, 


#training data.background files)) 
# 创建 /加 载 模型 
local model, weights, gradient, training stats = load model(cfg, model path, network filename, false) 
if not training stats then 

# 记 录 四 个 数组 

training stats = { pcls={}, preg={}, dcls={}, dreg={} } 
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end 
# 小 批量 数据 迭代 
local batch iterator = Batchlterator.new (model, training data) 
# 评 估 目 标 梯度 
local eval objective grad = create objective (model, weights, gradient, batch iterator, training stats) 
HARE rmsprop 的 参数 学 习 率 、alpha) — T T 
ocal rmsprop state = { learningRate = opt.lr, alpha = opt.rms decay } 
# 设 置 反 向 传播 的 参数 〈 学 习 率 、 权 值 衰减 、 动 量 因 子 ) 
ocal sgd state = ( learningRate = opt.lr, weightDecay = 0.0005, momentum = 0.9 } 
for i=1,50000 do BAR OR 

ifi $ 5000 = 0 then #3 E 

opt.lr = opt.lr / 2 
rmsprop state.lr — opt.lr 
































































































































end 
local timer = torch.Timer () 

# 获 得 当前 前 损失 值 

local _, loss = optim.rmsprop(eval objective grad, weights, rmsprop state) # 优 化 算法 
#local _, loss = optim.nag(eval objective grad, weights, nag state) 


#local , loss = optim.sgd(eval objective grad, weights, sgd state) 





















































































































































local tim timer:time().real 
print(string.format('$d: loss: $f', i, loss[1])) # 打 印 损失 值 
if i$opt.plot == 0 then 
plot training progress (snapshot prefix, training stats) # 绘 制图 形 
end 
if i$opt.snapshot == 0 then 
# 保存 snapshot (包括 权重 、 配 置 、 训 练 统计 )》 
save model(string.format('$s $06d.t7', snapshot prefix, i), 
weights, opt, training stats) 
end 
end 
end 
# 自 动 加 载 图 像 的 大 小 








function load image auto size(fn, target smaller side, max pixel size, color space) 
ocal img = image. load(path.join(base path, fn); 3, float 
local dim = img:size() 
local w, h 
f dim[2] < dim[3] then 
# 高 比 宽 小 ， 设 置 h 为 目标 大 小 
































Lu. 








math.min(dim[3] * target smaller side/dim[2], max pixel size) 
dim[2] * w/dim[3] 


高 比 宽 大 ， 设 置 w 为 目标 大 小 
math.min(dim[2] * target smaller side/dim[1], max pixel size) 
dim[3] * h/dim[2] 


else 








zZ Oo oe 


end 

img = image.scale(img, w, h) 

if color space == 'yuv' then 

img = image.rgb2yuv (img) 

elseif color space == 'lab' then 

img = image.rgb21lab (img) 

elseif color space == 'hsv' then 
img = image.rgb2hsv (img) 

end 

return img, dim 






































end 

# 评 估 样 例 

function evaluation demo(cfg, model path, training data filename, network filename) 
# 加 载 训练 数据 

local training data = load obj(training data filename) 

# 加 载 模型 

local model = load model(cfg, model path, network filename, false) 

local batch iterator = Batchlterator.new (model, training data) 


































































































# 设 置 颜色 

local red = torch.Tensor({1,0,0}) 

local green = torch.Tensor({0,1,0}) 

local blue = torch.Tensor({0,0,1}) 

local white = torch.Tensor({1,1,1}) 

local colors = { red, green, blue, white } 





# 创建 检测 器 
local d = Detector (model) 
for i-1,50 do 
# 挑选 随机 验证 图 像 
local b = batch iterator:nextValidation (1) [1] 
local img = b.img 
local matches = d:detect (img) 
img = image. yuv2rgb (img) 
# 绘制 检测 框 并 保存 图 片 
for i,m in ipairs (matches) do 

draw rectangle (img, m.r, green) 
















































































end 
image.saveJPG(string.format('output$d.jpg', i), img) 
end 
end 
# 调 用 训练 函数 
graph training (cfg, opt.model, opt.name, opt.train, opt.restore) 
# 调 用 评估 函数 
evaluation demo (cfg, opt.model, opt.train, opt.restore) 











4.3.5 ”实验 结果 分 析 


上 一 小 节 介绍 了 程序 实现 ， 下 面 开 始 分 析 该 目标 检测 网 络 Faster R-CNN 的 实验 结果 。 该 实验 环境 为 Ubuntu16.10， 硬 件 配置 是 PC 处 理 器 Intel Core i7-3770， 主 频 为 3.40GHz， 内 存 为 8GB。 该 实例 程 
序 针对 CPU， 如 果 需 要 在 CPU 上 运行 ， 可 以 参考 注释 中 注释 掉 的 GPU 部 分 代码 。 


(1) 实验 运行 
在 终端 中 首先 进入 程序 所 在 的 文件 夹 ， 输 入 th main.Iua 命 令 ， 程 序 开 始 运 行 ， 运 行 界面 如 图 4-30 所 示 ， 程 序 首先 打印 输出 提前 设置 好 的 各 项 参数 值 ， 然 后 开始 迭代 训练 。 


` 


FERRAN T 1620 RN A4-3 1A, AVIA rn HRS S EU ES s= ESRB EE SCAN, RAMON IRE RBS RERAN, YRERXIESVEEANBUT AN, Ben HIZDAAT BTE 
(pnet 的 分 类 损失 +pet 的 回归 损失 ) 。 


:-$ cd faster-rcnn-torch-master2/ 


A eS /faster-rcnn-torch-master25 th main.lua--in main 


Command line args: 
{ 
snapshot : 1000 
seed : 8 
name "imgnet" 
gpuid : -1 
lr : 0.0001 
restore : "imgnet 004008.t7" 
train : "ILSVRC2815 DET.t7" 
threads : 8 
plot : 2 
rms decay : 0.9 
cfg : "config/imagenet.lua" 
opti : "rmsprop" 
model : "models/vgg small.Llua" 
p 
Options: 
i 


roi pooling : 


kw : 6 
kh : 6 


} 
best_match : true 
batch size : 300 
positive threshold : 6.6 
nearby aversion : true 
normalization : 
{ 
method : "contrastive" 
centering : true 
scaling : true 
width : 7 


) 
negative threshold : 8.25 


target smaller side : 480 
scales : 

i 

1: 48 

z : 95 

3: 194 

4 : 384 

} 

class count : 200 


max pixel size : 1000 
background base path : "" 
augmentation : 


{ 
aspect jitter : O 
hflip : 0.25 
vflip : 6 


random scaling : 0 


examples base path : "" 
color space . "yuv" 


} 


Reading training data file 'ILSVRC2015_DET.t7'. 


Training data loaded. Dataset: 


(2) 训练 过 程 的 损失 


'ILSVRC2015_DET'; 


Total files: 


图 4-30 ”实验 运行 界面 


352154; 


classes: 200; Background: 107248) 


2000 次 训练 的 损失 值 如 图 4-32 所 示 ， 其 中 pcls 代 表 建 议 分 类 的 损失 值 ; preg 代 表 建 议 边框 回归 的 损失 值 ; dcls 代 表 检 测 分 类 的 损失 值 ; dreg 代 表 检 测 边框 回归 的 损失 值 。 


background: 


/ILSVRC2015/Data/DET/train/ILSVRC2013 train extra6/ILSVRC2013 train 00064422.JPEG (600x480) 


MENSES R 
' AR / ILSVRC2015/Data/DET/train/ILSVRC2013 train/n02494079/n02494079 2791.JPEG' (640x480); p: 51; n: 67 


| jwawaaaapawiwaawawaiawaaawawawawqwaeqaqeq / ILSVRC2015/Data/DET/train/ILSVRC2013 train/n02486410/n02486410 2377.JPEG' (721x480) ; 


prop: cls: 0.480331 (403), reg: 1.355168 (170); det: 
1628: loss: 1.835499 
background: 


cls: 1.683213, reg: 0.893429 


p: 49; n: 65 


/ILSVRC2015/Data/DET/train/ILSVRC2014 train 0004/ILSVRC2014 train 00040121.2PEG' (640x480); p: 70; n: 86 


/ILSVRC2015/Data/DET/train/ILSVRC2013 train extraO/ILSVRC2013 train 00006707.JPEG (627x480) 


ea 
' waaakinanpuwasaiwawasawaypiawawasaaaaqaeqsqasea / [L SVRC2015/Data/DET/traln/ILSVRC2013_traln/n03916031/n03916031_15795.JPEG' (480x719); p: 4; n: 20 
' ig qeq ae€G6666008/1LSVRC2015/Data/DET/traln/ILSVRC2013_ train/n07753113/n07753113 22990.JPEG' (480x578); p: 72; n: 88 
/ILSVRC2015/Data/DET/train/ILSVRC2013 train/n04254680/n04254680 1255.JPEG' (721x480); p: 51; n: 67 


prop: cls: 


1629: loss: 1.074926 


0.385867 (317), reg: 0.689059 (127); det: cls: 


2.110967, reg: 0.922437 


图 4-31 实验 训练 界面 


Traning progress over time 





0 500 1000 1500 2000 
iteration 


4-32 ”训练 损失 中 


在 图 4-32 中 可 以 看 出 建议 分 类 的 损失 值 一 直 很 稳定 地 保持 在 很 小 的 值 ， 并 且 在 缓慢 地 降低 ， 检 测 分 类 的 损失 值 则 从 比较 大 的 值 开 始 快速 下 降 ， 并 且 趋 势 是 随 着 迭代 次 数 的 增加 该 损失 值 越 来 越 小 建议 
边框 回归 的 损失 值 和 检测 边框 回归 的 损失 值 趋势 基本 吻合 ， 整 体 呈 下 降 趋 势 ， 在 达到 个 别 训练 次 数 的 时 候 损 失 值 波动 较 大 。 


[1] 该 实验 结果 彩色 插图 可 从 华章 网 站 (www.hzbook.com) FRE. 


oe ”MXNet 深 度 学习 框 架构 建 与 自然 语言 处 理 的 实现 


MXNet 作 为 深度 学 习 框 架 之 一 ， 因 其 高 效 和 灵活 的 特点 被 用 户 广泛 使 用 。 本 章 将 对 MXNet 框 架 进行 详细 介绍 ， 包 括 MXNet 的 基本 概念 和 特点 、MXNet 的 安装 过 程 等 ， 最 后 基于 自然 语言 处 理 实例 来 进 
一 步 展示 MXNet 在 深度 学 习 方面 的 应 用 。 


51 MXNet 概 述 


下 面 首 先 介绍 MXNet 的 基础 知识 ， 在 简单 了 解 MXNet 之 后 ， 再 介绍 MXNet 的 编程 接口 和 系统 实现 ， 这 两 方面 对 于 学 习 MXNet 来 说 非常 重要 ， 需 要 重点 掌握 ， 最 后 对 MXNet 的 关键 特性 进行 总 结 。 


5.1.1 MXNet 基 础 知识 


MXNet 是 一 个 高 效 、 灵 活 的 开源 深度 学 习 框 架 ， 支 持 命令 式 编程 和 声明 式 编 程 。MXNet 支 持 多 个 CPU 和 GPU 设备 自动 地 并 行 化 处 理 ， 计 算 表 示 为 符号 图 。 关 于 MXNet 的 具体 内 容 ， 以 及 命令 式 编 程 和 
声明 式 编程 等 内 容 将 在 下 面 做 出 详细 说 明 。 

对 于 优秀 的 深度 学 习 系统 或 者 优秀 的 科学 计算 系统 来 说 ， 最 重要 的 是 编程 接口 的 设计 。 这 些 系统 都 采用 将 一 个 领域 特定 语言 (Domain Specific Language) 坐 入 到 一 个 主语 言 中 。 例 如 
NumPy (Numeric Python ， 功 能 强大 的 N 维 数组 对 象 Array，Python 的 一 种 开源 数值 计算 扩展 ) 将 矩阵 运算 嵌入 到 Python (一 种 面向 对 象 的 解释 型 计算 机 程序 设计 语言 ) 中 。 这 类 谋 入 一 般 分 为 两 种 ， 一 
种 嵌入 得 较 浅 ， 其 中 每 条 语句 都 按 原 来 的 意思 执行 ， 且 通常 采用 命令 式 编 程 (Imperative Programming) ，NumPy 和 Torch 就 属于 命令 式 编 程 。 而 另 一 种 则 使 用 一 种 较 深 的 嵌入 方式 ， 提 供 一 整套 针对 有 具 
体 应 用 的 语言 。 这 种 通常 使 用 声明 式 编程 (Declarative Programing) ， 即 用 户 只 需要 声明 做 什么 ， 而 具体 执行 则 由 系统 完成 ， 这 类 系统 包括 Caffe、Theano 和 TensorFlow。 


这 两 种 编程 方式 各 有 利 浆 ， 具 体 比 较 见 表 5-1。 


表 5-1 命令 式 编程 和 声明 式 编程 的 比较 


较 浅 散 入， 命令 式 编程 ERRERA, ARIE 


如 何 执行 a=b+1 需要 b 已 经 被 赋值 ,立即 执行 加 法 ,| 返回 对 应 的 计算 图 (computation graph)， 之 后 
| " 将 结果 保存 在 a 中 对 进行 赋值 ， 然 后 再 执行 加 法 运算 

| . 在 真正 开始 计算 时 已 经 得 到 整个 计算 图 ， 所 
pe : AX E. 3 BE A - 
ARES MEN OTE MARWARE | 以 可 以 对 计算 图 进行 一 系列 优化 来 提升 性 能 。 实 





Zt Hl H Fi 2 " 2 p . I ae a 
优点 AA im aa aE 且 全 "| 现 畏 助 丽 数 也 容易 ， 例 如 对 任何 计算 图 都 提供 





ER forward 和 backward 困 数 ， 对 计算 图 进行 可 视 
化 ， 将 图 保存 到 硬盘 和 从 硬盘 读 取 
很 多 主语 言 的 特性 都 用 不 上 。 某 些 在 主场 言 

实现 统一 的 辅助 遇 数 和 提供 整体 优化 | 中 实现 很 简单 ， 但 在 这 里 却 非常 及 烦 ， 如 if-else 
都 很 困难 语句 。 调 试 程序 也 很 碎 烦 ， 例 如 监视 一 个 复 洒 的 
计算 图 中 某 个 节点 的 中 间 结 果 也 不 人 简单 


号 后 





目前 现 有 的 系统 比如 Caffe、Torch 等 大 部 分 都 采用 以 上 两 种 编程 模式 的 一 种 。 与 这 些 系统 不 同 的 是 ，MXNet 尝 试 将 两 种 编程 模式 结合 起 来 。 在 命令 式 编程 上 MXNet 提 供 张 量 运 算 ， 而 声明 式 编程 中 
MXNet 支 持 符号 表达 式 。 关 于 张 量 运算 和 符号 表达 式 将 会 在 编程 接口 部 分 详细 介绍 。 通 过 这 两 种 编程 方式 的 结合 ， 用 户 可 以 自由 地 使 用 这 种 结合 来 快速 实现 自己 的 想法 。 例 如 可 以 用 声明 式 编 程 来 描述 神经 
网 络 ， 并 利用 系统 提供 的 自动 求 导 来 训练 模型 。 另 外 ， 模 型 的 迭代 训练 和 更 新 模型 法 则 中 可 能 涉及 大 量 的 控制 逻辑 ， 这 些 都 可 以 用 命令 式 编程 来 实现 。 


MXNet 和 目前 流行 的 深度 学 习 系统 在 语言 和 编程 模式 等 方面 的 比较 如 表 5-2 所 示 。 


表 5-2 MXNet 和 其 他 深度 学 习 系 统 的 比较 


a 从 语言 


Caffe Python/Matlab CPU/GPU 


MXNet E CES Python/R/Julia/Go | CPU/GPU/Mobile | v | wv | v 


MXNethARSHERM ESI RO BWASMEI SARA, k (矩阵 运算 ， 符 号 表达 式 ， 分 布 式 通信 ) 、 两 种 编程 模式 的 统一 系统 实现 ， 以 及 各 硬件 的 支持 。 总 之 ， 不 同 的 编程 模式 有 各 自 的 优势 ， 
以 往 的 深度 学 习 框 架 往往 着 重 于 灵活 性 或 者 性 能 ，MXNet 则 通过 融合 的 方式 把 两 种 编程 模式 整合 在 一 起 ， 试 图 最 大 化 各 自 的 优势 ， 并 且 通 过 统一 的 轻 量 级 运行 引擎 进行 执行 调度 ， 使 得 用 户 可 以 直接 复 用 稳 
定 高 效 的 神经 网 络 模块 ， 并 且 可 以 通过 Python 等 高 级 语言 进行 快速 扩展 。 


5.1.2 ”编程 接口 


下 面 详细 介绍 MXNet 系 统 框架 中 的 编程 接口 部 分 : 主要 包括 声明 式 的 符号 表达 式 Symbol、 命 令 式 的 张 量 计算 NDArray、 多 设备 间 的 数据 交互 KVStore 等 方面 ， 下 面 对 这 些 接口 进行 详细 介绍 。 
(1) Symbol: 声明 式 的 符号 表达 式 


MXNet 使 用 多 值 输出 的 符号 表达 式 来 声明 计算 图 。 符 号 是 由 操作 子 构建 而 来 。 一 个 操作 子 可 以 是 一 个 简单 的 矩阵 运算 “+” ， 也 可 以 是 复杂 的 神经 网 络 里 面 的 层 ， 如 卷 积 层 。 一 个 操作 子 可 以 有 多 个 输 
变量 和 多 个 输出 变量 ， 还 可 以 有 内 部 状态 变量 。 一 个 变量 既 可 以 是 自由 的 ， 可 以 之 后 对 其 赋值 ， 也 可 以 是 某 个 操作 子 的 输出 。 


以 下 范例 创建 了 一 个 两 层 的 感知 器 网 络 : 两 个 全 连接 层 ， 激 活 函 数 是 Relu， 输 出 是 softmax。 








>>> import mxnet as mx 
































>>> net = mx. symbol .Variable (' data') 

>>> net = mx.symbol.FullyConnected(data-net, name-'fcl', num hidden=128) 
>>> net = mx.symbol.Activation(data-net, name-'relul', act type-"relu") 
>>> net = mx.symbol.FullyConnected(data-net, name-'fc2', num hidden-64) 
>>> net = mx.symbol.SoftmaxOutput (data-net, name-'out') 

















>>> type (net) 
«class 'mxnet.symbol.Symbol'> 


每 一 个 Symbol 可 以 绑 定 一 个 名 字 ，Variable 通 常用 来 定义 输入 ， 其 他 Symbol 有 一 个 参数 data， 以 一 个 Symbol 类 型 作为 输入 数据 ， 另 外 还 有 其 他 的 超 参 数 num_hidden (隐藏 层 的 神经 元 数目 ) . 
act type (激活 函数 的 类 型 ) 。 


(2) NDArray: 命令 式 的 张 量 计算 


MXNet 提 供 命令 式 的 张 量 计算 来 桥接 主语 言 和 符号 表达 式 。 下 面 代码 表示 在 CPU 上 计算 憩 阵 和 常量 的 乘法 ， 并 使 用 numpy 来 打印 结果 


>>> import mxnet as mx 
>>> a = mx.nd.ones((2, 3), mx.cpu()) 
>>> print (a * 2).asnumpy() 
LE 2, “Zr Le] 
[ 2, 2, 2.]] 





另 一 方面 ，NDArray 可 以 无 颖 地 与 符号 表达 式 进 行 对 接 。 假 设 使 用 yymbol 定 义 了 一 个 神经 网 络 net， 那 么 就 可 以 如 下 实现 一 个 梯度 下 降 算 法 。 








for (int i = 0; i < n; ++i) { / / rot AR UC 
net.forward(); // 前 向 计算 
net.backward(); // 反 向 计算 
net.weight -= eta * net.grad //H#NH 





























这 里 梯度 net.grad 由 Symbol 计 算 而 得 。Symbol 的 输出 结果 均 表 示 成 NDArray， 可 以 通过 NDArray 提 供 的 张 量 计算 来 更 新 权重 。 此 外 ， 还 利用 了 主语 言 的 for 循 环 来 进行 迭代 ， 学 习 率 eta 也 是 在 主语 言 
中 进行 修改 。 


(3) KVStore: 多 设备 间 的 数据 交互 

MXNet 提 供 一 个 分 布 式 的 key-value 存 储 来 进行 数据 交换 。 它 主要 有 两 个 函数 : 
. push: 将 key-value 对 从 一 个 设备 “push” 进 存储 。 

' pull: 将 某 个 Key 上 的 value 从 存储 中 “pul” 出 来 。 

此 外 ，KVStore 还 接受 自 定义 的 更 新 函数 来 控制 收 到 的 值 如 何 写 入 存储 中 。 


分 布 式 梯度 下 降 算 法 : 


KVStore kvstore ("dist async"); 
kvstore.set updater([] (NDArray weight, NDArray gradient) { 



































weight -= eta * gradient; // 更 新 权重 
1); 
for (int i = 0; i < max iter; ++i) í 
kvstore.pull (network.weight); // 取 出 权重 
network. forward () ; // 前 向 计算 
network.backward(); // 反 向 计算 
kvstore.push (network.gradient) ; // 保 存 权 重 








在 这 里 先 创建 一 个 kvstore，dist_async 参 数 表示 执行 异步 更 新 ， 然 后 将 更 新 函数 注册 进去 。 在 每 轮 迭 代 前 ， 每 个 计算 节点 先 将 最 新 的 权重 “pull” 出来， 之 后 将 计算 后 得 到 的 梯度 再 “push” 回 去 。 
kvstore 将 会 利用 更 新 函数 来 使 用 收 到 的 梯度 以 更 新 其 所 存储 的 权重 。 


(4) 读 入 数据 模块 
数据 读 取 在 整体 系统 性 能 考虑 上 占 重要 地 位 。MXNet 可 提供 工具 将 任意 大 小 的 样本 压缩 打包 成 单个 或 者 数 个 文件 来 加 速 顺序 和 随机 读 取 。 


通常 数据 存在 本 地 磁盘 或 者 远 端的 分 布 式 文件 系统 上 ， 每 次 只 需 将 当前 需要 的 数据 读 进 内 存 。MXNet 提 供 数据 迭代 器 以 按 块 读 取 不 同 格式 的 文件 。 迭 代 器 使 用 多 线程 来 解码 数据 ， 并 使 用 多 线程 预 读 取 
来 减 小 文件 读 取 的 开销 。 


(5) 训练 模块 


MXNet 使 用 常用 的 优化 算法 来 训练 模型 。 用 户 只 需要 提供 数据 迭代 器 和 神经 网 络 的 Symbol 便 可 。 此 外 ， 用 户 可 以 提供 额外 的 KVStore 来 进行 分 布 式 训 练 。 例 如 下 面 代 码 使 用 分 布 式 异步 
SGD (Stochastic Gradient Descent， 随 机 梯度 下 降 ) 来 训练 一 个 模型 ， 其 中 每 个 计算 节点 使 用 两 块 GPU。 


import mxnet as mx 

















// 生 成 训练 模型 

model = mx.model.FeedForward( 
ctx = [mx.gpu(0), mx.gpu(1)], // 使 用 GPU 设备 
symbol = network, / / TRES PN ZR FJ Symbol 
num_epoch = 100, / ERTL 
learning rate = 0.01, / /# 2] 3 
momentum = 0.9, // 动 量 
wd = 0.00001, // 权 重 衰退 系数 





initializer = mx.init.Xavier (factor type="in", magnitude-2.34)) 
//PUT Xavier MERRE, AMEE UAB a ea KB E 
ME EISE: 





















































model.fit( 
X = train iter, // 训 练 数据 迭代 器 
eval data = val iter, // 验 证 数据 迭代 器 
kvstore = mx.kvstore.create('dist async'), ee 





epoch end callback = mx.callback.do checkpoint ('model ' 
/ ani Uae NORTE ! 的 检查 点 








5.1.3 ”系统 实现 


上 一 节 主 要 介绍 MXNet 的 编程 接口 ， 接 下 来 主要 介绍 MXNet 的 系统 实现 部 分 ， 首 先 对 计算 图 及 其 优化 进行 详细 说 明 ， 其 次 介绍 引擎 部 分 ， 最 后 对 可 移植 性 进行 详细 介绍 
(1) 计算 图 


首先 对 计算 图 进行 介绍 ， 一 个 已 经 赋值 的 符号 表达 式 可 以 表示 成 一 个 计算 图 。 如 图 5-1 所 示 是 定义 的 多 层 感 知 机 的 部 分 计算 图 ， 包 含 forward 和 backward 计 算 









NY. 
forward | 










backward 


图 5-1 中 圆 表示 变量 ， 比 如 W 表 示 权 重 向 量 ，b 表 示 偏 置 ， 方 框 表 示 操 作 子 ，fullc 表 示 全 连接 ，relu 表 示 激 活 函 数 ， 箭 头 表示 数据 依赖 关系。 在 执行 之 前 ，MXNet 会 对 计算 图 进行 优化 ， 以 及 为 所 有 变量 
提前 申请 空间 。 在 这 里 详细 讲 一 下 计算 图 优化 和 内 存 申请 。 


ü 


图 5-1 多 层 感 知 机 的 部 分 计算 图 


计算 图 优化 主要 有 3 个 方面 : 第 一 ， 注 意 需要 提前 声明 哪些 是 输出 变量 ， 这 样 就 只 需要 计算 这 些 输出 需要 的 操作 。 例 如 ， 在 预测 时 则 不 需要 计算 梯度 ， 所 以 整个 backward 图 都 可 以 忽略 。 而 在 特征 提取 
中 ， 可 能 只 需要 某 些 中 间 层 的 输出 ， 从 而 可 以 忽略 后 面 的 计算 。 第 二 ， 可 以 对 一 些 操作 进行 合并 。 例 如 a*b+ 1 只 需要 一 个 BLAS (基础 线性 代数 子 程序 库 ) 或 者 cuda 函 数 即 可 ， 而 不 需要 将 其 表示 成 两 个 操 
作 。 第 三 ， 可 以 实现 一 些 “ 大 ”操作 ， 如 一 个 卷 积 层 就 只 需要 一 个 操作 子 。 这 样 可 以 大 大 减 小 计算 图 的 大 小 ， 并 且 方 便 手 动 地 对 这 个 操作 进行 优化 。 


内 存 申请 : 内 存 通 常 是 一 个 重要 的 瓶 须 ， 尤 其 是 对 GPU 和 智能 设备 而 言 。 而 神经 网 络 计算 时 通常 需要 大 量 的 临时 空间 ， 如 存储 每 个 层 的 输入 和 输出 变量 。 对 每 个 变量 都 申请 一 段 独 立 的 空间 会 带 来 高 额 
的 内 存 开销 。 但 是 可 以 从 计算 图 推断 出 所 有 变量 的 生存 期 ， 即 这 个 变量 从 创建 到 被 使 用 的 时 间 段 ， 从 而 可 以 对 两 个 不 交叉 的 变量 重复 使 用 同一 内 存 空间 。 


(2) 引擎 


在 MXNet 中 ， 所 有 的 任务 ,包括 张 量 计算 、 符 号 表达 式 执 行 、 数 据 通 信 都 会 交 由 引擎 来 执行 。 首 先 ， 所 有 的 资源 单元 ， 如 NDArray、 随 机 数 生 成 器 和 临时 空间 ， 都 会 在 引擎 处 注册 一 个 唯一 的 标签 。 然 
后 每 个 提交 给 引擎 的 任务 都 会 标明 它 所 需要 的 资源 标签 。 引 擎 则 会 跟踪 每 个 资源 ， 如 果 某 个 任务 所 需要 的 资源 已 经 可 用 ， 产 生 这 个 资源 的 上 一 个 任务 已 经 完成 ， 那 么 引擎 则 会 调度 和 执行 这 个 任务 。 


通常 一 个 MXNet 运 行 实例 会 使 用 多 个 硬件 资源 ， 包 括 CPU、GPU、PCle 通 道 、 网 络 和 磁盘 ， 所 以 引擎 会 使 用 多 线程 来 调度 ， 即 任何 两 个 没有 资源 依赖 冲突 的 任务 都 可 能 会 被 并 行 执行 ， 以 求 最 大 化 资 
源 利用 。 


与 通常 的 数据 流 引 擎 不 同 的 是 ，MXNet 的 引擎 允许 一 个 任务 修改 现 有 的 资源 。 为 了 保证 调度 的 正确 性 ， 提 交 任 务 时 需要 分 开标 明 哪 些 资源 是 只 读 、 哪 些 资源 会 被 修改 。 这 个 附加 的 写 依赖 可 以 融 来 很 多 
便利 。 例 如 可 以 方便 实现 在 numpy 以 及 其 他 张 量 库 中 常见 的 数组 修改 操作 ， 同 时 也 使 得 内 存 分 配 时 更 加 容易 ， 比 如 操作 子 可 以 修改 其 内 部 状态 变量 而 不 需要 每 次 都 到 内 存 申请 。 其 次 ,假如 要 用 同一 个 种 子 
生成 两 个 随机 数 ， 那 么 可 以 标注 这 两 个 操作 会 同时 修改 种 子 ， 从 而 使 得 引擎 不 用 并 行 执行 ， 也 使 得 代码 的 结果 可 以 很 好 地 被 重复 。 


(3) 可 移植 性 


轻 量 和 可 移植 性 是 MXNet 的 一 个 重要 目标 。MXNet 核 心 使 用 C++ 实现 ， 并 提供 C 风 格 的 头 文件 。 因 此 方便 系统 移植 ， 也 使 得 其 很 容易 被 其 他 支持 C FFI (Foreign Function Interface) 的 语言 调用 。 
此 外 ， 还 提供 一 个 脚本 将 MXNet 核 心 功能 的 代码 连同 所 有 依赖 打包 成 一 个 只 有 数 万 行 的 C+ + 源 文件 ， 使 得 其 在 一 些 受 限 的 平台 ， 如 智能 设备 上 也 可 以 很 方便 地 编译 和 使 用 。 


5.1.4 MXNet 的 关键 特性 


(1) 轻 量 级 调度 引擎 
MXNet 在 数据 流 调度 的 基础 上 引入 了 读 写 操作 调度 ， 并 且 使 得 调度 和 调度 对 象 无 关 ， 用 以 直接 支持 动态 计算 和 静态 计算 的 统一 多 GPU 多 线程 调度 ， 使 得 上 层 实现 更 加 简洁 灵活 。 
(2) 支持 符号 计算 


MXNet 支 持 基于 静态 计算 图 的 符号 计算 。 计 算 图 不 仅 使 设计 复杂 网 络 更 加 简单 快捷 ， 而 且 基 于 计算 图 MXNet 可 以 更 加 高 效 地 利用 内 存 。 同 时 进一步 优化 了 静态 执行 的 规划 ， 内 存 需 求 比 cxxnet (并 行 
的 深度 神经 网 络 计算 库 ) 还 要 少 。 


(3) 混合 执行 引擎 


相 比 cxxnet 的 全 静态 执行 、minerva (并 行 深度 学 习 引 擎 ) 的 全 动态 执行 ，MXNet 采 用 动静 态 混合 执行 引擎， 可 以 把 cxxnet 静 态 优化 的 效率 和 ndarray 动 态 运行 的 灵活 性 结合 起 来 ， 把 高 效 的 C+ + 库 更 
加 灵活 地 与 Python 等 高 级 语言 结合 在 一 起 。 


(4) 弹性 灵活 


在 MShadow C++ (其 采用 表达 式 模 板 的 技巧 增强 了 C++ 和 矩 阵 库 的 性 能 ) 表达 式 模板 的 基础 上 ， 符 号 计算 和 NDArray 使 得 在 Python 等 高 级 语言 内 编写 优化 算法 、 损 失 函 数 和 其 他 深度 学 习 组 件 并 高 效 
无 颖 支持 CPU/GPU 成 为 可 能 。 用 户 无 需 关 心底 层 实 现 ， 在 符号 和 NDArray 层 面 完 成 逻辑 即 可 进行 高 效 的 模型 训练 和 预测 。 


(5) 代码 简洁 高 交 

由 于 大 量 使 用 C+ +11 特 性 ，MXNet 可 利用 最 少 的 代码 实现 尽 可 能 最 大 的 功能 ， 如 用 约 11k 行 C+ + 代码 (加 上 注释 4k 行 ) 实现 了 引擎 调度 、 符 号 计算 等 核心 功能 。 

(6) 开源 用 户 和 设计 文档 

MXNet 提 供 了 非常 详细 的 用 户 文档 和 设计 文档 以 及 样 例 ， 所 有 的 代码 都 有 详细 的 文档 注释 ， 并 且 会 持续 更 新 代码 和 系统 设计 细节 ， 希 望 对 广大 深度 学 习 系 统 开发 和 爱好 者 有 所 帮助 。 
(7) 社区 活跃 度 


DMLC (Distributed (Deep) Machine Learning Community) 是 国内 最 大 的 开源 分 布 式 机 器 学 习 项 目 。DMLC 的 相关 代码 直接 托管 在 GitHub (https://github.com/dmlc) 中 ， 并 采用 Apache 2.0 
协议 进行 维护 。 


5.2 ”MXNet 框 架 安 六 


下 面 将 介绍 Windows 10/64 位 操作 系统 下 MXNet 的 安装 步骤 。 
(1) 下 载 MXNet 


进入 MXNet 的 GitHub (https://github.com/dmlc/mxnet) ， 将 其 下 载 到 %ROOT_DIR% 目 录 下 并 解压 (注意 : 带 后 级 @ 的 可 能 在 下 载 的 压缩 包 中 没有 ， 单 独 下 载 并 放 在 指定 位 置 即 可 ) 。 如 图 5-2 所 





«D 5,665 commits i, 17 branches C» 27 releases £2 384 contributors z[z Apache-2.0 
Branch: master = New pull request Find file Clone or download + 





dE leezu committed with piiswrong Add h5py support to NDArraylter (36790) Clone with HTTPS © 
l g Use Git or checkout with SVN using the web URL. 
E github Create ISSUE TEMPLATE.md 


https: // github. com/dmlc/mxnet.git Ez 
Eg R-package [R]fix optimizer with multi-GPU. close #5296 (#7056) 


lig amalgamation dipack directory added (#6550) 


Open in Desktop Download ZIP 


lg cmake 

EN cpp-package 
icon] 

fm dipack © a6e09b5 

flm dmlc-core @ b64/be2 
Ba docker 

lig docs 

Eg example 

lal include/mxnet 

lg make 


lg matlab 


[z mshadow[& d32b5da 


Im nnvm[i c96ddüe 


Bg perl-package 


(2) 下 载 OpenBLAS 和 OpenCV 


CMake based compilation for Mac OS X. (#6870) 

Refactor Stateful operator and custom op (#6928) 

update cub url (#6625) 

Change Interface of NDArray & TBlob for DLPack Compatible (#6345) 
Refactor Stateful operator and custom op (#6928) 

Add python-opencv installation to Docker image (#6699) 

fix custom op and add tutorial ($7076) 

Improve PTB results (#/059) 

foo doc and tutorial (#6708) 


enable use of lapack by default ($6704) 


Update Matlab demo script and get it working again with the HEAD of M... 


CMake based compilation for Mac OS X. (#6870) 
interpret negative values in ReduceAxes ops ($6992) 


reworked cachedop. (#6910) 


图 5-2 下载 MXNet 


载 放 到 %ROOT _DIR%\MXNet\mxnet thirdparty 路 径 下 ， 如 图 5-3 所 示 。 
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需要 安装 配置 DOpenCV3 和 OpenBLAS， 该 网 盘 链接 (https://pan.baidu.com/share/init?shareid= 3521378751 &uk=2788406365, BASqmg) 有 配置 好 的 OpenCV3 和 OpenBLAS， 可 以 直接 下 





Ly mxnet thirdparty.rar [> 保存 到 网 盘 


(0 2016-12-02 13:51 ”失效 时 间 : 永久 有 效 
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a 复制 到 mer ” 新建 Et < 2E gm 
: 文件 去 " làm E 
组 织 新 建 打开 选择 
let > mxnet > mxnet thirdparty w Ü 搜索 "mxnet thirdparty" p 
genet mta 
名 称 修改 日 期 ZEI 太 小 





2017/5/11 10:47 MIF 
2017/5/11 10:48 MD 








这 件 大 小 :722.2M 


图 5-3 “下载 OpenBLAS 和 OpenCV 


(3) 安装 Python 和 NumpPy 


如 果 没 有 安装 Python， 就 需要 下 载 Anaconda 进 行 安装 。 如 果 已 经 安装 过 Python， 可 跳 过 此 步 。 如 图 5-4 所 示 。 


Download For Windows Download For macOS Download For Linux 


Anaconda 4.4.0 Python 3.6 version 


For Windows 64-BIT INSTALLER (437M) 


Anaconda is BSD licensed which gives you permission to use Anaconda 





commercially and For redistribution. 


32-BIT INSTALLER (362M) 


1. Download the installer 

2. Optional: Verify data integrity with MD5 or SHA-256 More 
info Python 2.7 version 

3. Double-click the .exe File to install Anaconda and Follow the 
instructions on the screen 


64-BIT INSTALLER (430m) 





32-BIT INSTALLER (354M) 


图 5-4 ”安装 Python 
(4) 用 CMake 生 成 VS 工程 


下 载 并 安装 最 新 版 的 CMake， 官 网 下 载 地 址 为 https://cmake.org/download。 然 后 如 图 5-5 所 示 填 写 参数 并 勾 选 指定 项 (Grouped 和 Advanced) 。 指 定好 MXNet 所 在 目录 后 ， 同 时 要 指定 生成 目录 
为 %ROOT_DIR%/mxnet/build， 否 则 生成 的 libmxnet.dll 不 在 默认 目录 下 。 





A CMake 3.5.1 - SEE. mixnet/build ES [] X 
File Tools Options Help 


Where is the source code: Browse Source... 
Where to build the binaries: ‘Browse Build... | 
Search: [| Grouped Ady anced qn Add Entry $ Remove Entry 

Name Value 


Press Configure to update and display new values in red, then press Generate to generate selected build files. 


Configure Generate Open Project) Current Generator: Visual Studio 12 2013 Wirñd 


图 5-5 ”填写 编译 路 径 


单 击 Configure，Generate 选 项 中 VS 版 本 没有 强制 要 求 ， 但 需要 选择 Win64。 在 此 过 程 中 可 能 会 出 现 一 些 错误 ， 需 要 做 以 下 事情 : 在 CPU 模式 下 ， 如 图 5-6 所 示 去 掉 CUDA 和 CUDNN 的 勾 选 ; 在 GPU 
模式 下 需要 勾 选 ( 即 要 安装 CUDA 和 CUDNN) 。 


A CMake 3.8.1 - ganini mnet/build — O X 
File Tools Options Help 


Where is the source code: Browse Source... 
Where to build the binaries: MEE /mnet/buld "| Browse Build... 


Name Value es 


CNIAKE 

MEL 

OpenBLAS 
w USE 
USE CPP PACKAGE 
USE CUDZ 






USE CUDNN 
USE DIST KVSTORE 

USE JEMALLOC 

USE MKL EXPERIMENTAL 
USE MKL IF AVAILABLE 


JISIETETETETLILI 





Press ÜConfizure to update and display new values in red, then press Generate to generate selected build files. 


Configure | | Generate Open Project) Current Generator:|Vizual Studio 12 2013 Wind 


Iry OpenMP C flag = [/openmp] 

Performing Test OpenMP FLAG DETECTED 
Performing Test OpenMP FLAG DETECTED - Success 
Iry OpenMP CXX flag — [/openmp] 


Performing Test OpenMP FLAG DETECTED 

Performing Test OpenMP FLAG DETECTED - Success 

Could NOT find GTest (missing: GIEST LIBRARY GTEST INCLUDE DIR GTEST MAIN LIBRARY] 
Configuring done 





Ej5-6 ”去掉 CUDA 和 CUDNN 的 勾 先 
如 果 报 错 找 不 到 OpenBLAS， 就 需要 手动 添加 OpenBLAS 的 路 径 ， 指 定 OpenBLAS 的 include 目 录 和 |lib 文 件 位 置 如 图 5-7 所 示 。 
A CMake 3.8.1 ERR 0 t build = [] AX, 
File Tools Options Help 
Where is the source code: Browse Source... 
acc labia Mee WEST 
searoht| h ls Grouped [Z] Advanced Gp Add Entry | | Remove Entry 


Name Value ds 
Ungrouped Entries 
CMAKE 
> MEL 
w OpenBLAS 
OpenBLAS INCLUDE DIR HE n xnet/mxnet thirdparty/OpenBLAS/Include 
OpenBLAS LIB BE roxnet/mxnet_thirdparty/OpenBLAS/lib/openblas.lib 
wv USE 
USE CPP PACKAGE z 
USE CUDA [] 
USE CUDNN [ | 
USE DIST KVSTORE [ | i 


Press Configure to update and display new values in red, then press Generate to generate selected build files. 


Configure | | Generate Open Froject Current Generator: Visual Studio 12 2013 Win&4 





CMake Error at cmaáke/HModules/FindOpenBLAS.cmake:68 (MESSAGE): 
Could not find OpenBLAS 

Call Stack (most recent call first): 
mshadow/cmake/mshadow.cmake:22 (find package] 


CMakeLists.txt:S7 (include) 


图 5-7 指定 OpenBLAS 的 编译 目录 
之 后 ， 单 击 Generate 生 成 Visual Studio L. 
(5) 编译 MXNet 


打开 mxnet.sIn， 注 意 编译 选项 改 成 Release、x64 模 式 ， 按 Ctrl+Shift+B 键 编译 所 有 工程 ， 如 图 5-8 所 示 ， 生 成 的 ibmxnet.dll 就 会 出 现在 ./buildy/release 文 件 夹 下 。 把 生成 的 libmxnet.dll 文 件 复制 
至 %ROOT _DIR%\mxnet\python\mxnet 目 录 内 ， 如 图 5-9 所 示 。 


og mxnet - Microsoft Visual Studio Ll Y 快速 启动 (Ctrl +Q) Ë W> mR Rs 
XE) SE 视图 MEI  S5ERE(B) 《调试 上 是) GMIM NSIGHT IEO AWG EFEO UN) 窗口 (W)  SBNH) Sx Hi 


- G| - 25 m R| - C -| P ath Windows ate ~ 


Ben SAP ES EE ES 
@|@ e-- mü £ 一 
搜索 解决 方案 咨 源 管 理 露 (Ctrl+;) 
fa] 解决 方案 'mxnet' (13 个 项 目 ) 
4 + ALL BUILD 
zm 外 部 依 壤 项 
* BJ CMakeLists.txt 
4 +[%] Continuous 
b = CMake Rules 
zm SHR 
+H CMakeLists.txt 


Ei Prnt 


解决 方案 资源 管理 器 MER 





sree: ez i | Sfp “| at sno mame 


1020: WitHet\mxnet \mxnet_thirdparty'OpenC¥ \buildiinclude \opency2/‘core/mat. hpplise65): warning I 
10>D: NMXHet*mxnet*kmxznet thirdpartyMpenCVAbuildhineludeWopenev2/core/perzizstence.hpp : warnii 
10?D: WXHetimxnetimxnet thirdpartwvMpenCVSbuildiincludeWopenevz/core/utilitv.hpp : warning C: 
10> image-classification—predict. yoxproy —> D: MXHet'mxnetibuildhexampleMimage-clazzificati: ALL_BUILD 
11> OHJE: 项目: INSTALL. BEES Release x64 

112> 深 有 为 此 解决 方案 配置 选中 要 生成 的 项 目 

= Bh 3 T: Sei o0 pe deaf oce d Sc] ———— 


生成 成 功 
图 5-8 ”编译 工程 
(6) 配置 MXNet 的 python 包 
运行 cmd， 切 换 至 %ROOT _DIR%AN\mxnetN\python 目 录 下 ， 执 行 python setup.py build 和 python setup.py install 语 句 。 如 图 5-10 所 示 。 
(7) 测试 MXNet 是 否 安 装 成 功 


进入 Python 运行 环境 ， 执 行 import mxnet， 如 果 没 有 报错 则 说 明 安 装 成 功 。 如 图 5-11 所 示 。 


2o Wa et > build > Release 





> 





RP fel RB HEH X 
á libmxnet.dll 2017/7/19 10:36 ”应 用 程序 扩展 19,260 KB 
d libmxnet.exp 2017/7/19 10:36 Exports Library ... 23 KB 


2017/7/19 10:36 Object File Library 39 KB 










> mxnet > python > mxnet 








pir HRH 类 型 大 小 
2017/5/11 20:43 PYC 文件 14 KB 
* 2017/5/10 21:46 PY 文件 3 KB 
* |] kvstore semer.pyc 2017/5/11 20:44 PYC 文件 3 KB 
*  |]libinfo.py 2017/5/10 21:46 PY 文件 3 KB 
+ | | libinfo.pyc 2017/5/11 20:43 PYC 文件 2 KB 
libmxnet.dil 2017/5/11 20:29 ”应 用 程序 扩展 19,260 KB 
| log.py 2017/5/10 21:46 PY 文件 3 KB 
|] leg.pyc 2017/5/11 20:44 PYC xri 3 KB 


图 5-9 ”把 生成 的 libmxnet.dll 文 件 复制 至 Python 目 录 内 


| mxnet\python>python setup. py build 
running build 
running build py 


mxnet\python>python setup. py instal | 

running instal | 

running bdist egg 

running egg info 

riting requirements to mxnet. egg-info\requires. txt 

iriting mxnet. egg-infoXPKG- INFO 

riting top-level names to mxnet. egg-infoMtop level. txt 

riting dependency links to mxnet. egg- infoXdependency links. txt 
reading manifest file 'mxnet. egg- infoXSOURCES. txt’ 

riting manifest file 'mxnet. egg—info\SOURCES. txt’ 

installing library code to bui Id Mbdist. wi n-amdóANegg 
running install lib 
running bui ld py 

reating bui IdMbdist. win-amd64\egg 

sreating build\bdist. win-amd64\egg\mxnet 

copying build\lib\mxnet\attribute. py -> build\bdist. win-amd64\egg\mxnet 
opying build\!ib\mxnet\base. py -> bui ldMbdist. win-amd64\egg\mxnet 





图 5-10 ”安装 Python 的 mxnet 库 


\mxnet \python>python 
Python 2.7.12 |Anaconda 4.2.0 (64-bit)| (default, Jun 29 2016, 11:07:13) [MSC v. 1500 
ype "help", "copyright", "credits" or "license" for more information. 
Anaconda is brought to you by Continuum Analytics. 


Please check out: http: //continuum. io/thanks and https: //anaconda. org 


>> import mxnet 
>> 





图 5-11 测试 MXNet 是 否 安 装 成 功 


5.3 ”基于 MXNet 框 架 的 自然 语言 处 理 实现 (LSTM) 


该 实例 主要 是 利用 循环 神经 网 络 来 实现 自然 语言 处 理 ， 具 体 来 说 就 是 使 用 LSTM 网 络 (Long Short-Term Memory networks) 实现 Penn TreeBank 语 言 处 理 模 型 。Penn TreeBank 是 一 个 对 语 料 进 行 
标注 的 项 目 ， 项 目 目标 包括 词性 标注 以 及 句法 分 析 。 下 面 主要 对 实例 中 使 用 到 的 网 络 和 方法 进行 介绍 ， 主 要 包括 RNN 和 LSTM 网 络 的 介绍 、 实 例 中 使 用 的 Bucketing 方 法 的 介绍 等 内 容 。 


5.3.1 目 然 语言 处 理应 用 背景 


自然 语言 处 理 (Natural Language Processing, NLP) 是 人 工 智能 和 语言 学 领域 的 分 支 学 科 ， 探 讨 如 何 处 理 及 运用 自然 语言 。 在 该 实例 中 主要 实现 自然 语言 处 理 中 的 词性 标注 Part-of-speech 
tagging 以 及 句法 分 析 Parsing。 


词性 标注 Part-of-speech tagging 是 标记 文本 (语料库 ) 中 单词 对 应 于 一 种 特殊 的 词类 的 过 程 ， 基 于 它 的 定义 和 上 下 文 ， 即 短语 、 句 子 或 段落 中 相 邻 或 相关 词 之 间 的 关系 。 列 举 一 个 词性 标注 例子 : (I 
love you}->{PRONOUN,VERB,PRONOUN}。 在 这 个 例子 中 ， 输 入 层 有 3 个 时 间 步 ， 每 个 时 间 步 输入 一 个 词 (实际 是 输入 这 个 词 对 应 的 词 向 量 ) ， 词 向 量 的 维度 可 以 自己 指定 ， 比 如 250 维 ， 这 个 维度 也 就 是 
输入 神经 元 的 个 数 。 输 入 时 ， 第 1/2/3 个 时 间 步 分 别 输入 |、love、you 的 词 向 量 。 输 出 层 也 有 3 个 时 间 步 ， 每 个 时 间 步 输出 一 个 向 量 。 词 性 标注 一 般 会 输出 一 个 概率 分 布 ， 表 示 当 前 词 的 每 种 词性 的 概率 。 比 
如 第 一 个 时 间 步 输入 是 单词 | 的 词 向 量 ， 那 么 第 一 个 时 间 步 的 输出 就 是 | 属于 各 种 词性 的 概率 。 为 简单 起 见 ， 这 里 只 考虑 两 种 不 同 的 词性 (代词 和 动词 ) ， 第 一 时 间 步 的 输出 有 可 能 是 (0.99,0.01)， 表 示 这 个 词 
有 0.99 的 可 能 是 一 个 代词 ，0.01 的 可 能 是 一 个 动词 。 以 此 类 推 ， 第 2 和 第 3 个 时 间 步 分 别 输出 love 和 you 可 能 是 什么 词性 。 


句法 分 析 Parsing 是 判断 输入 的 单词 序列 (一般 为 句子 ) 的 构成 是 否 合乎 给 定 的 语法 规则 的 过 程 ， 并 通过 构造 句法 树 来 确定 句子 的 结构 以 及 各 层次 句法 成 分 之 间 的 关系 ， 即 确定 一 个 句子 中 的 哪些 词 构成 
一 个 短语 、 哪 些 词 是 动词 的 主语 或 宾语 等 问题 。 用 S 表 示人 句子 ; NP、VP、PP 是 名 词 、 动 词 、 介 词 短 语 (短语 级 别 ) ; N、V、P 分 别 是 名 词 、 动 词 、 介 词 ， 对 于 “Beijing is located in China” 这 句 话 ， 经 
过 语法 分 析 之 后 生成 的 树 状 结构 图 如 图 5-12 所 示 ,， 即 (S(NP(N Beijing))(VP(V is)(VP(V located)(PP(P in)(NP(N China))))))。 
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图 5-12 ”句法 分 析 结 构图 


5.3.2 RNN 及 LSTM 了 网 络 


循环 神经 网 络 (Recurrent Neural Networks, RNN) 主要 用 来 处 理 序列 数据 。 在 传统 的 神经 网 络 模 型 中 ， 是 从 输入 层 到 隐藏 层 再 到 输出 层 ， 层 与 层 之 间 是 全 连接 的 ， 每 层 之 间 的 节点 是 无 连接 的 ,但 
是 这 种 普通 的 神经 网 络 对 于 很 多 问题 却 无 能 为 力 。 例 如 ， 在 自然 语言 处 理 中 ， 预 测 一 个 句子 中 的 下 一 个 单词 ， 需 要 使 用 前 几 个 句子 的 背景 ， 同 时 又 需要 用 到 同一 个 句子 中 的 其 他 单词 ， 因 为 一 个 句子 中 的 单 
词 并 不 是 独立 的 ， 这 相当 于 层 与 层 之 间 相 连接 ， 同 时 同一 层 节 点 之 间 也 具有 连接 关系 。RNN 可 以 很 好 地 处 理 这 种 问题 。 其 具体 的 表现 形式 为 网 络 会 对 前 面 的 信息 进行 记忆 并 应 用 于 当前 输出 的 计算 中 ， 即 隐 
藏 层 之 间 的 节点 是 有 连接 的 ， 并 且 隐 藏 层 的 输入 不 仅 包括 输入 层 ， 还 包括 上 一 时 刻 隐 藏 层 的 输出 。 理 论 上 ，RNN 能 够 对 任意 长 度 的 序列 数据 进行 处 理 。 但 是 在 实践 中 ， 为 了 降低 复杂 性 往往 假设 当前 的 状态 
只 与 前 面 的 几 个 状态 相关 。 如 图 5-13 所 示 便 是 一 个 典型 的 RNN。 


[sti J: 





图 5-13 ”典型 的 RNN 


RNN 与 传统 神经 网 络 最 大 的 区 别 是 具有 循环 结构 ， 如 图 5-14a 所 示 ， 一 组 神经 网 络 A， 接 收 输入 参数 Xt， 输 出 为 ht， 循 环 结构 A 在 学 习 过 程 中 保留 上 一 时 刻 信息 并 对 下 一 时 刻 做 出 影响 。 这 样 的 循环 结构 
类 似 于 将 神经 网 络 展开 成 多 个 相同 的 神经 网 络 ， 如 图 5-14b 所 示 。 





图 5-14 展开 的 循环 神经 网 络 


这 种 链 状 性 质 表 明 ， 递 归 神 经 网 络 与 序列 内 容 密 切 相 关 。 因 此 ， 递 归 神 经 网 络 是 处 理 具有 序列 特征 数据 的 自然 结构 。 


RNN 强 调 将 前 期 信息 与 当前 任务 连接 ， 即 根据 前 期 信息 辅助 对 当前 信息 的 理解 。 在 实际 情况 中 ， 任 务 性 能 与 任务 规模 密切 相关 。 在 简单 任务 中 ， 只 需要 结构 简单 的 模型 即 可 达到 理想 状态 。 比 如 考虑 一 
个 语言 


言 模型 ， 试 图 根据 之 前 单词 预测 下 一 个 。 例 如 “the clouds are in the sky” 这 句 话 ， 如 果 已 经 知道 前 面 的 内 容 “the clouds are in the”， 想 要 预测 这 句 话 中 的 最 后 一 个 单词 ， 则 不 需要 更 多 的 上 下 
文 ， 很 明显 下 一 个 单词 会 是 “sky”。 在 这 种 情况 下 ， 如 果 相 关 信 息 与 预测 位 置 的 间隔 比较 小 ，RNN 可 以 学 会 使 用 之 前 的 信息 ， 如 图 5-15 的 方 框 所 示 。 
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图 5-15 相关 信息 与 预测 位 置 的 间隔 


但 也 有 需要 更 多 上 下 文 的 情况 。 当 考虑 试图 了 预测 “| grew up in France...| speak fluent French.” 这 一 段 内 容 中 最 后 一 个 词 时 ， 由 最 近 信息 “1 speak fluent” 可 知 下 一 个 词 可 能 是 一 门 语言 的 名 字 ， 
但 是 如 果 想 要 缩小 选择 范围 ， 就 需要 包含 “France” 的 那 段 上 下 文 ， 从 前 面 的 信息 推断 后 面 的 单词 。 相 关 信 息 与 预测 位 置 的 间隔 很 大 是 完全 有 可 能 的 。 然 而 ， 随 着 这 种 间隔 的 拉 长 ，RNN 就 会 无 法 学 习 连 接 
言 息 ， 如 图 5-15 的 虚线 框 所 示 。 


为 了 解决 这 种 长 期 依赖 天 系 的 问题 ， 提 出 了 LSTM 长 短期 记忆 网 络 ， 它 是 一 种 特殊 的 RNN ， 能 够 学 习 长 期 依赖 天 系 。 所 有 RNN 都 具有 一 种 重复 神经 网 络 模块 的 链 式 的 形式 。 在 标准 的 RNN 中 ， 这 个 重复 
的 模块 只 有 一 个 非常 简单 的 结构 ， 如 一 个 tanh 层 。LsTM 同 样 是 这 样 的 结构 ， 但 是 重复 的 模块 拥有 不 同 的 结构 ， 不 同 于 单一 神经 网 络 层 ， 而 是 一 个 判断 信息 有 用 与 否 的 “处 理 器 ”， 这 个 处 理 器 作用 的 结构 
被 称 为 LSTM Cell。LSTM 的 关键 就 是 LSTM Cell 的 状态 ， 在 图 5-16 上 方 贯穿 运行 的 水 平 线 Ct-1Ct。LSTM Cell 状 态 类 似 于 传送 带 ， 直 接 在 整个 链 上 运行 ， 因 为 只 有 一 些 线性 交互 ， 信 息 很 容易 在 上 面 传送 并 
保持 不 变 。LSTM 通 过 “ 门 ” 结 构 来 去 除 或 者 增加 信息 到 LSTM Cell 状 态 ， 门 是 一 种 让 信息 选择 式 通过 的 方法 。 一 个 LSTM Cell 当 中 被 放置 了 三 扇 门 ， 分 别 叫 作 输入 门 、 遗 筷 门 和 输出 门 。 一 个 信息 进入 LSTM 
网 络 当 中 ， 可 以 根据 规则 来 判断 是 否 有 用 。 只 有 符合 算法 认证 的 信息 才 会 留 下 ， 不 符合 的 信息 则 通过 遗忘 门 被 遗忘 。 


在 图 5-16 中 ， 每 一 条 黑色 带 箭 头 的 线 上 传输 着 一 个 向 量 ， 从 一 个 节点 的 输出 到 其 他 节点 的 输入 ， 带 有 “+” 的 圆圈 代表 两 个 向 量 的 或 操作 ， 由 “x” 标 志 的 圆圈 代表 两 个 向 量 的 与 操作 。 灰 色 的 矩形 代表 
使 用 不 同 的 激活 函数 操作 。 合 在 一 起 的 线 表 示 向 量 的 连接 ， 分 开 的 线 表示 内 容 被 复制 ， 然 后 分 发 到 不 同 的 位 置 。 
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图 5-16 LSTMA 2 





5.3.3 Bucketing 及 不 同 长 度 的 序列 训练 





在 实例 中 使 用 了 Bucketing 方 法 实现 不 同 序列 长 度 的 训练 ， 现 在 介绍 Bucketing 的 用 法 。Bucketing 是 一 种 训练 多 个 不 同 但 又 具有 相似 结构 的 人 工 神经 网 络 ， 这 些 网 络 共享 相同 的 参数 集 。RNN 是 一 个 典 
型 的 Bucketing 方 法 的 应 用 。 在 使 用 符号 网 络 定义 的 工具 箱 中 实现 RNN 时 ， 通 常会 将 网 络 沿 时 间 轴 显 式 地 展开 ， 并 且 需 要 提前 设置 RNN 中 序列 的 长 度 。 为 了 处 理 序列 中 的 所 有 元 素 ， 需 要 将 网 络 展 开 成 最 大 
可 能 的 序列 长 度 。 然 而 这 很 浪费 资源 ， 因 为 对 于 较 短 的 序列 ， 大 部 分 计算 都 是 在 填充 后 的 数据 上 执行 的 。 


Bucketing 不 再 将 网 络 展开 成 最 大 可 能 长 度 ， 而 是 展开 成 多 个 不 同 长 度 的 实例 (比如 ， 长 度 为 5、10、20、30) 。 在 训练 过 程 中 ， 对 于 不 同 长 度 的 数据 使 用 最 恰当 的 展开 模型 。 对 于 RNN ， 尽 管 这 些 模 
型 具有 不 同 的 架构 ， 但 参数 在 时 间 轴 上 是 共享 的 。 尽 管 选 出 的 是 不 同 Bucketing 的 模型 并 以 不 同 的 最 小 批 来 训练 ， 但 本 质 上 都 是 在 优化 相同 的 参数 集 。 


在 RNN 中 ， 不 同样 本 数据 的 序列 长 度 T 往 往 是 不 同 的 ， 这 就 导致 无 法 进行 向 量化 ， 正 如 上 面 说 到 的 ， 常 见 的 解决 方法 就 是 使 用 一 个 特定 的 数 把 序列 长 度 短 的 数据 进行 补 齐 。 而 使 用 Bucketing 方 法 更 为 合 
理 。 如 图 5-17 所 示 ， 对 于 不 同 序列 长 度 ，Bucketing 的 做 法 是 实现 了 几 个 固定 长 度 的 RNN， 例 如 10、20、30 等 。 其 中 序列 长 度 小 于 或 等 于 10 的 样本 ， 输 入 到 第 一 个 网 络 中 ， 同 理 ， 序 列 长 度 大 于 10 小 于 20 


的 样本 输入 到 第 二 个 网 络 中 ， 这 里 非常 关键 的 一 点 是 Bucketing 大 小 不 同 的 RNN 一 定 要 进行 权 值 共享 。 也 就 是 说 ，Bucketing=10 的 参数 要 与 Bucketing=20 的 RNN 的 前 10 个 时 间 步 的 参数 共享 ， 其 他 的 同 
理 。 在 训练 的 时 候 ， 每 一 个 分 块 数据 的 Bucketing 大 小 是 相同 的 。 


和 和 和 序列 内 容 
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图 5-17 使 用 Bucketing 方 法 处 理 不 同 长 度 序 列 


在 该 实例 中 ， 使 用 PennTreeBank 语 料 库 作为 语言 模型 。 本 实例 将 介绍 如 何 使 用 Bucketing 来 实现 变 长 序列 训练 。 使 用 Bucketin g 方 法 ， 需 要 实现 为 不 同 长 度 的 序列 构建 新 的 展开 的 符号 架构 。 使 用 固定 
的 Symbol 模型 无 法 实现 这 个 目的 ， 于 是 使 用 回调 函数 sym_gen， 根 据 不 同 的 序列 长 度 seq_len 展 开 并 生成 不 同 的 Symbol 模型 ，sym_gen 函 数 只 有 一 个 输入 参数 Bucketing 值 ， 即 序列 长 度 seq_len。 
sym_gen 函 数 的 具体 代码 实现 如 下 : 








def sym gen (seq len): 
data = mx.sym.Variable('data') 
label = mx.sym.Variable('softmax label') 
embed = mx.sym.Embedding (data=data, input dim=len (vocab), 
output dim=args.num embed, name-'embed') 








stack. reset () 

outputs, states= stack.unroll (seq len, inputs= =embed,merge outputs=True) 
pred = mx.sym. Reshape (outputs, shape-(-1, args.num hidden) ) 

pred = mx.sym.FullyConnected (data-pred, num | hidden=len (vocab) , name='pred') 
label = mx.sym.Reshape (label, shape-(-1,)) 

pred = mx.sym.SoftmaxOutput (data-pred, label=label, name='softmax') 
return pred, ('data',), ('softmax label',) 






































frsebXIBIUSESZEsym genk EXA, YesssEXSIBIJEESAAGETT;EHB. tRiSsym genk EPkgSymbol, MXNetfi9modulef&tXxfiSBucketingModulef&ix 8l ^ [s] RKE Symbolik 
型 ，BucketingModule 方 法 需要 的 输入 参数 是 自 定 义 的 回调 函数 sym_gen、 默 认 的 Bucketing 值 ， 该 模块 根据 不 同 的 序列 长 度 值 交 由 MXNet 框 架 创 建 多 个 Symbol 模型 ， 并 共享 网 络 中 的 权重 参 
数 ，BucketingModule 方 法 调用 代码 如 下 所 示 。 





model = mx.mod.BucketingModule (sym gen = sym gen 
default bucket key = data train. default : bucket key, 
context = contexts) 











数据 和 迭代 器 data_train 需 要 报告 默认 的 Bucketing 值 ， 实 际 是 最 大 的 Bucketing 值 ， 预 先 分 配 最 大 的 Bucketing 值 可 以 实现 更 好 的 内 存 共享 。 当 出 现 新 的 不 同 长 度 的 序列 时 ， 如 果 该 序列 长 度 对 应 的 执行 
器 还 没有 创建 ， 将 由 sym_gen 国 数 以 序列 长 度 即 Bucketing 值 为 参数 生成 Symbol， 构 建 对 应 的 执行 器 ， 该 执行 器 将 放 在 缓存 中 以 便 之 后 使 用 。 


在 本 实例 中 使 用 静态 配置 的 Bucketing， 即 buckets=[10,20,30,40,50,60]， 或 者 让 MXNet 根 据 数据 集 自动 生成 Bucketing， 即 buckets=[]。 后 一 种 方法 是 通过 添加 一 个 与 输入 长 度 相同 的 
Bucketing (Bucketing 足 够 长 ) 来 实现 的 。 


5.3.4 ”详细 代码 实现 





# 叶 入 需要 的 模块 

# numpy 只 保存 数值 ， 用 于 数值 运算 
import numpy as np 

# i 

import as mx 

# 导入 解析 命 fe SHE AE TMD 


import argparse 








命令 行 解释 函数 argparse.ArgumentParser() 可 添加 用 户 自 定义 的 参数 选项 ， 在 本 实例 中 ， 可 以 通过 命令 行 参数 设置 hum-layers 网 络 层 数 、num-hidden 隐 藏 层 单元 数 ”num-embed 骨 入 层 单元 数 、 
gpus 设 备 、kv-store 键 值 对 存储 类 型 、num-epochs 和 迭代 次 数 、lr 学 习 率 、optimizer 优 化 、mom 动 量 、wd 权 重 衰退 系数 、batch-size 块 大 小 、disp-batches 显 示 日 志 频 率 。 








# 创建 解析 对 象 

parser = argparse. K oo p e ss = "Train RNN on Penn Tree Bank", 
lass = argparse.ArgumentDefaultsHelpFormatter) 
# add argument () () 3 EF PIT 

# num-layers， 添 加 的 RNN 层 数 ，int 类 型 ， 默 认 是 2 层 


parser.add argument ('--num-layers', type = int, default = 2, 























help = 
# num-hidden, UZAK, ini 
parser.add argumen 


t('--num-hidden', 
he] 


'number of 
类 型 ， 默 认 值 是 200 





f stacked RNN layers') 








def 





type = int, ault = 200, 


















































lp = "hidden layer size') 

















# num-embed, HARA, int287H, BRU AE200 
parser.add argument ('--num-embed', type = int, default =200, 
help = 'embedd: ng layer size') 
+ gpus 列 表 ， 如 果 为 空 使 用 CPU 
parser.add argument('--gpus', type = str, 
help = 'list of gpus to run, e.g. 0 or 0,2,5. 


A 


using cpu. 








performance. 


e Tegan 型 





Increase batch size when using multiple gpus 






































parser.add argument (' E , type = str, default = 'device', 
= 'key-value store type') 
4 mun-epochs, BARRY, "ERMB2S 
parser.add argument('--num-epochs', type = int, default = 25, 
7 help = 'max num of epochs') 
parser. sda ee type = float, default = 0.01, 
m help = 'initial learning rate') 
# optimizer, W, Risésgd 
parser.add argument ('--optimizer', type = str, default = 'sgd', 
help = 'the optimizer type') 


^ 


# mom, Bye, BAO. 





U 

























































































parser.add argument ('--mom', type = float, default = 0.0, 
help = 'momentum for sgd') 

# wd，sgq 的 权重 衰退 系数 ， 默 认 值 0.0001 

parser.add argument('--wd', type = float, default = 0.00001, 
help = 'weight decay for sod') 

# batch-size， 默 认 是 32 

parser.add argument (' — size', type = int, default = 32, 

= 'the batch size.') 
š disp-batches, Sain’ Mi UGH MERE 
parser.add argument ('--disp-batches', type = int, default = 50, 





help = 


"show progress 














for every n batches!) 





empty means 





for best 





































































































































































































































































































































































































































































































定义 国 数 tokenize_text 实 现 编码 功能 ， 按 行 读 取 指 定 文件 放 入 列表 ， 并 按 空格 划分 每 行文 本 为 单词 列表 ， 再 使 用 RNN 模 型 自 带 的 encode_sentences() 国 数 对 单词 进行 编码 ， 建 立 从 字符 标记 到 整数 的 
索引 ， 并 创建 词汇 表 。 
def tokenize text(fname, vocab = None, invalid label = -1, start label = 0): 
# 按 行 读 取 指定 文本 ,并 放 入 列表 1Lines 中 
lines = open (fname) . read] Place) 
# 循 环 读 取 列 表 Lines， 按 空格 划分 文本 行内 容 为 单词 列表 ， 并 用 filtet () 函数 过 滤 列 表 
lines = [filter (None, i.split(' ')) for i in lines] 
#encode sentences ( ADORI, EY RARAS] 
PhS ASHER 初始 未 知 的 单词 将 添加 到 词汇 表 vocab 中 
sentences, vocab = mx.rnn.encode sentences (lines, 
vocab = vocab, 
invalid label = invalid label, 
start label = start label) 
return sentences, vocab 
如 果 是 在 命令 行 直 接 执行 该 脚本 ，_name_ 值 就 是 _main _， 如 果 这 个 脚本 是 被 import 的 话 ， 就 不 会 执行 这 里 的 代码 。 
ií name == ' main ': 
# 引入 logging 包 记录 日 志 
import logging 
Td 志 信 息 的 格式 
head = '$(asctime)-15s eee ae) 
# ist Logging. basicconfigiB ER Has HAMAR OTR WAR 
logging. basicConfig(level = logging.DEBUG, format = head) 
# 调 用 parse args () 方 法 进行 参数 解析 
args = parser.parse args () 
Bucketing 是 A 这 些 网 络 共 享 相同 的 参数 集 度 的 数据 ， 使 用 最 恰当 的 展开 模型 。 如 果 使 用 buckets=[]， 则 MXNet 根 所 
数据 集 自 动 生成 。 
# 使 用 静态 配置 的 bucket 
buckets = [10, 20, 30, 40, 50, 60] 
start label = 1 
invalid label = 0 
# 调 用 tokenize_text () 函数 对 训练 数据 进行 编码 ， 并 生成 词汇 表 vocab 
train sent, vocab = tokenize text("./data/ptb.train.txt", 
start label = start _label, 
invalid label = invalid label) 
# 调 用 tokenize text () O 函数 对 验证 数据 进行 编码 二 使 用 生成 的 词汇 表 进 行 编码 
val sent, _ = tokenize text("./data/ptb.test.txt", 
vocab = vocab, 
start label = start label, 
invalid label = invalid label) 
# 使 用 RNN 模 型 自 带 的 语言 模型 的 语句 序列 迭代 器 BucketSentenceIter 
# 生 成 训 练 数据 迭代 器 和 验证 数据 迭代 器 
data train = mx.rnn.BucketSentenceIter (train sent, 
= args.batch size, 
buckets = buckets, 
invalid label = invalid label) 
data val = mx.rnn.BucketSentenceIter (val sent, 
args.batch size, 
buckets = buckets, 
invalid label - invalid label) 
( FARNNi#SH! BrEfRSequentialRNNCell()8gZ4EXEESJIRNN&B7r, SequentialRNNCell&Sadd(cell)ESZ S Jcellpyz&8&7oSstackrR, add(cell)g&&gZ&BScell&s&EREBaseRNNCell, EZKBS 


RNN 单 元 有 : LSTMCell, 


Stack = mx.rnn.Sequential 
# 根 据 定 义 的 网 络 层 数 ， 在 每 层 添 加 
for i in range (args .num lay 

stack.add (mx.rnn.LSTMCe 











定义 函数 sym_gen， 为 不 同 长 度 的 序列 构建 一 个 新 的 展开 的 符 





f sym gen(seq len): 
# 创建 一 个 























RNNCe11 () 


LSTMCel1 单 元 
ers): 
ll(num hidden = args.num hidden, 


fix 





pre 


'lstm ld '$ 


Long-Short Term Memory(LSTM) 网 络 单元 ;' GRUCell, Gated Rectified Unit(GRU) 网 络 单元 ; RNNCell， 简 单 的 循环 网 络 单元 。 在 本 实例 中 添加 的 是 LSTMCell。 


1)) 





号 架构 











， 该 函数 只 有 一 个 输入 即 序列 长 度 bucket key 或 seg_ len; 并 为 这 个 序列 返回 一 个 Symbol， 该 





于 输入 数据 和 标签 的 PlaceHolder 变 量 


( 占 位 符 ) 


data = mx.sym.Variable('data') 


label = mx.sym.Variable('so 





ftmax label") 





使 用 MXNet 的 Symbol 的 Embedding(0 函 数 将 原始 One-Hot 编 码 的 词 (长 度 为 词 库 大 小 ) 映射 到 低 维 向 量 表 
稀 踊 的 向 量 。 调 用 Embedding 后 可 以 将 其 降 
数 、 名 词 动词 等 。 


为 是 有 实际 意义 的 ， 比 如 单 复 


HDAS. Gud 


IAE. = 


到 低 维度 的 空间 下 进 


， 降 低 特征 维 数 ， 比 如 词 库 是 8000 维 ， 每 个 词 只 有 一 个 位 置 是 1 


数 十 万 的 稀疏 vector 被 映射 到 数 百 维 的 稠密 vector， 这 个 稠密 vector 的 每 一 个 特 


， 其 余 位 置 都 是 9， 即 非常 
征 可 以 认 


了 


过 Embedding (GAERA) 之 后 ,长 i 


> 





# qdata 为 原始 编码 的 词 ，input_ dimJgisji EBE, output_dimAikA Ia AEM 
embed = mx.sym.Embedding (data = data, 
input dim = len (vocab), 
a dim = args.num embed, 
ame = 'embed') 
PE EIEH 82 pú 22 | 另 一 个 图 形 之 前 重 置 


stack.reset() 





























使 用 RNN 模 型 的 unroll 函 数 根据 时 间 步 展开 RNN 单 元 ， 序 列 的 长 度 即 为 要 展开 的 步 数 ， 该 层 的 输入 是 上 一 层 的 输出 ， 如 果 merge_outputs 的 参数 值 为 True， 合 并 各 个 时 间 步 的 输出 并 返回 一 
Symbol， 状 态 state 是 展开 之 后 RNN 的 新 状态 。 











outputs, states = stack.unroll(seq len, inputs = embed, merge outputs = True) 





(FASymbolfYReshapery aves žE, 18347 "-1" Zea EAHA LEELA Rab KR RSH ESN, (EREVAN KJ SARA AI MRS. rHúhllinput shape=(2,3,4),shape=(- 
1,),output shape=(24,), 





















































pred = mx.sym.Reshape (outputs, shape = (-1, args.num hidden) ) 
Ere 
red = mx.sym.FullyConnected (data = pred, num hidden = len (vocab), name = 'pred') 
# 重 组 标签 数据 
label = mx.sym.Reshape (label, shape = (-1,)) 
# SoftmaxOutput, softmaxi H): 
pred = mx.sym.SoftmaxOutput (data = pred, label = label, name = 'softmax') 
return pred, ('data',), ('softmax label',) 
# 选 择 GPU 或 CPU 设 备 
if args.gpus: 
contexts = [mx.gpu(int(i)) for i in args.gpus.split(',')] 
else: 
contexts = mx.cpu (0) 





使 用 MXNet 的 module 模 块 的 BucketingModule 模 块 创建 训练 模型 ，BucketingModule 模 块 有 助 于 处 理 不 同 长 度 的 输入 。 





model = mx.mod.BucketingModule ( 
ee eee 
gen = sym gen, 
PEI bucket 
default bucket key = data train.default bucket key, 
context = contexts) ú 7 E 
# 使 用 moqdule 的 fit () 函数 训练 模型 
model. fit ( 
# train gdata 设 置 训练 迭代 器 
train data = data train, 
# val datak Wins (Vas 
eval data = data val, 
# 在 训练 时 报告 困难 度 ， invalid label 在 计算 时 忽略 无 效 标记 的 索引 
RUTO F, 设置 为 - 1。 如 果 设 置 为 None， 它 将 包括 所 有 条 目 
eval metric = mx.metric.Perplexity (invalid label), 
kvstore = args.kv Store, 
# 用 随机 梯度 下 降 优化 
optimizer = args.optimizer, 
optimizer params = { eee args.lr, + 优化 参数 : FJK 
























































































































































'momentum' args .mom, # 优化 参数 : 动量 
'wd': args.w wd }, # 优化 参数 :权重 衰减 系数 
# 初 始 化 器 被 调用 来 初始 化 模块 参数 ， 当 它们 还 没有 初始 化 时 ， 
initializer = mx.init.Xavier(factor type = "in", magnitude = 2.34), 











í 
epoch = args.num epochs, 
# 定 期 对 训练 速度 和 评估 指标 进行 日 志 记 录 
# qisp_batches 指 定 记录 训练 速度 和 评估 指标 的 频率 。 默 认 每 50 个 patch 记 录 一 次 
batch end callback = mx.callback.Speedometer(args.batch size, args.disp batches) ) 














在 本 实例 中 ， 主 要 是 使 用 MXNet 的 RNN 模 块 实现 的 。 实 例 中 使 用 的 RNN 模 块 是 MXNet 自 带 的 ， 所 以 用 户 直 接 使 用 即 可 。 实 例 代 码 主要 分 为 3 大 部 分 ， 第 一 部 分 是 数据 ， 首 先 获取 数据 ， 对 数据 进行 预 
处 理 即 分 词 处 理 ， 再 使 用 RNN 的 Bucketsentencelter 语 句 迭 代 器 生成 数据 迭代 器 ; 第 二 部 分 是 创建 网 络 ， 本 实例 是 根据 网 络 层 数 添加 LSTMCell 单 元 ; 第 三 部 分 是 生成 模型 并 训练 及 测试 ， 在 本 实例 中 ， 需 
要 根据 序列 长 度 生 成 不 同 的 训练 模型 ， 在 生成 模型 的 时 候 ， 对 数据 进行 嵌入 使 其 降 维 ， 并 将 网 络 进行 展开 ， 在 模型 创建 好 之 后 对 模型 进行 训练 和 测试 ， 该 过 程 主要 通过 fit() 函 数 实现 。 用 户 如 果 需 要 创建 网 络 
处 理 自己 的 数据 ， 需 要 重点 修改 数据 部 分 和 创建 网 络 部 分 ， 在 模型 创建 并 训练 和 测试 部 分 不 需要 进行 太 大 的 改变 ， 不 过 需要 根据 实际 情况 修改 学 习 率 、 进 代 次 数 等 。 


5.3.5 ”实验 过 程 及 实验 结果 分 析 


1. 实 验 过 程 分 析 





(1) lines = open (fname) .readlines () 





使 用 open() 孙 数 打 开 指 定 文本 ， 再 使 用 readlines() 国 数 按 行 读 取 文 本 ， 并 将 读 取 到 的 内 容 放 入 列表 lines 中 ， 将 列表 lines 中 的 内 容 按 行 输出 ， 如 图 5-18 所 示 。 在 本 实例 中 ， 训 练 文 本 ptb.train.txt 的 总 行 
数 是 42068， 验 证 文本 ptb.test.txt 的 总 行 数 是 3761。 


按 行 读 取 数据 : 
aer banknote berlitz calloway centrust cluett fromstein gitano guterman hydro-quebec ipo 
kia memotec mlx nahb punts rake regatta rubens sim snack-food ssangyong swapo wachter 
pierre <unk> N years old will join the board as a nonexecutive director nov. N 


mr. <unk> is chairman of <unk> n.v. the dutch publishing group 


rudolph <unk> N years old and former chairman of consolidated gold fields plc was named 
a nonexecutive director of this british industrial conglomerate 


E5-18 ” 按 行 读 取 数 据 





(2) lines = [filter (None, i.split(' ')) for i in lines] 


使 用 for 循 环 读 取 列表 lines， 再 使 用 split() 函 数 按 空格 划分 每 行文 本 内 容 ， 并 用 filter0 遂 数 过 滤 掉 划分 后 为 空 的 内 容 ， 即 可 得 到 划分 后 的 单词 序列 ， 实 现 分 词 ， 将 列表 lines 中 具体 内 容 按 行 输出 ， 如 图 5- 


19 所 示 。 文 本 的 行 数 保持 不 变 。 


空格 对 数据 进行 分 词 : 
['aer', ‘banknote’, 'berlitz', 'calloway', 'centrust', 'cluett', 'fromstein', 'gitano', 
uterman', 'hydro-quebec', ‘ipo’, ‘kia’, ‘memotec’, 'mlx', 'nahb', ‘punts’, ‘rake’, 'rega 
ta', 'rubens', 'sim', 'snack-food', 'ssangyong', 'swapo', 'wachter'] 


['pierre', 'Xunk^', 'N', ‘years’, 'old', ‘will’, 'join', 'the', 'board', 'as', ‘a’, ‘none 


ecutive’, ‘director’, 'nov. , 'N' 


Aunt '&unk^', 'is', 'chairman', ‘of’, '<unk>', 'n.v.', ‘the’, ‘dutch’, ‘publishing’, 
roup' 


图 5-19 ”数据 分 词 





(3) sentences, vocab = mx.rnn.encode sentences (lines, vocab = vocab, 
invalid label = invalid label, 
start label = start label) 

















使 用 MXNet 的 RNN 模 型 中 encode_sentences0 函 数 对 列表 lines 中 已 经 分 词 的 单词 序列 进行 编码 ， 得 到 单词 序列 对 应 的 整数 序列 ，sentences 的 内 容 如 图 5-20 所 示 。 


对 数据 进行 编码 : 
ya 9, 4, 5 & 1-8 9 10 15 12-43 14 1$ 316. 15. 13.79 20. 25 24 25: 242 m 


[25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 27, 0] 


[39, 26, 40, 41, 42, 26, 43, 32, 44, 45, 46, 0] 


图 5-20 ”编码 数据 


在 对 训练 文本 编码 的 过 程 中 ， 将 未 知 的 词汇 加 入 vocab 中 ， 生 成 词汇 表 vocab，vocab 的 内 容 如 图 5-21 所 示 。 生 成 的 vocab 词 汇 表 是 在 训练 数据 中 生成 的 ， 对 测试 文本 编码 就 是 根据 vocab 词 汇 表 对 单词 


据 生 成 的 词汇 表 : 
aided:9551 
yel low: 2934 
del. :4745 
four : 199 
woods : 9497 
resisted: /410 
increase: /05 








* 


图 5-21 生成 的 词汇 表 


在 结果 分 析 中 ， 本 实例 使 用 困难 度 Perplexity 来 评价 模型 分 析 数 据 性 能 的 好 坏 ， 困 难度 Perplexity 是 测量 概率 分 布 或 模型 预测 样本 的 好 坏 程度 ， 较 低 的 困难 度 则 表明 模型 能 很 好 地 预测 样本 。 下 面 是 困难 
度 模型 Perplexity 的 定义 : 


其 中 ，N 表 示 样 本 的 个 数 ，q(xj) 是 第 i 个 样本 xi 在 实际 标签 下 的 预测 值 。 


下 面具 体 展示 网 络 在 训练 过 程 中 困难 度 的 变化 情况 以 及 实验 测试 情况 。 


2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 


2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 
2017-08-07 


N 
Perplexity = exp -全 > os q (x, ) 


15:20:40, 780 Epoch[0] Batch 
15:20:53, 394 Epoch[0] Batch 
15:21:06,803 Epoch[0] Batch 
15:21:21,053 Epoch[0] Batch 
15:21:34, 072 Epoch[0] Batch 
15:21:48, 542 Epoch[0] Batch 
15:22:01, 634 Epoch[0] Batch 
15:22:15, 721 Epoch[0] Batch 
15:22:29, 986 Epoch[0] Batch 
15:22:43, 542 Epoch[0] Batch 
15:22:57, 269 Epoch[0] Batch 
15:23:09, 736 Epoch[0] Batch 
15:23:22, 710 Epoch[0] Batch 
15:23:36,118 Epoch[0] Batch 
15:23:49, 608 Epoch[0] Batch 
15:24:05, 187 Epoch[0] Batch 
15:24:19, 302 Epoch[0] Batch 
15:24:33, 305 Epoch[0] Batch 
15:24:48, 125 Epoch[0] Batch 
15:25:01,813 Epoch[0] Batch 
15:25:14, 490 Epoch[0] Batch 
15:25:29,920 Epoch[0] Batch 
15:25:44, 635 Epoch[0] Batch 
15:26:00, 046 Epoch[0] Batch 
15:26:12, 980 Epoch[0] Batch 
15:26:27,085 Epoch[0] Batch 


图 5-22 和 图 5-23 分 别 是 第 1 次 迭代 和 第 25 次 〈 最 后 一 次 ) 迭代 时 网 络 的 训练 速度 、 


[50] 


[950] 

[1000] 
[1050] 
[1100] 
[1150] 
[1200] 
[1250] 
[1300] 


Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 


i=] 


117. 38 
126. 85 
119. 31 
112. 28 
122. 93 
110. 57 
122. 21 
113. 57 
112. 18 
118. 03 
116. 56 
128. 35 
123. 32 
119. 34 
118. 62 
102. 70 
113. 36 
114. 26 
107. 97 
116. 88 
126. 22 
103. 70 
108. 73 
103. 83 
123. 70 
113. 44 


15:26:29,076 Epoch[0] Train-Perplexity-857. 744973 
15:26:29,078 Epoch[0] Time cost=362. 178 
15:26:43, 315 Epoch[0] Validation-Perplexity-859. 162593 


17:59:20, 476 Epoch[24] Batch 
17:59:35, 724 Epoch[24] Batch 
17:59:49, 698 Epoch[24] Batch 
18:00:03,013 Epoch[24] Batch 
18:00:16, 875 Epoch[24] Batch 
18:00:31, 354 Epoch[24] Batch 
18:00:45, 739 Epoch[24] Batch 
18:00:59, 819 Epoch[24] Batch 
18:01:13,019 Epoch[24] Batch 
18:01:25, 667 Epoch[24] Batch 
18:01:41,079 Epoch[24] Batch 
18:01:55, 740 Epoch[24] Batch 
18:02:12, 390 Epoch[24] Batch 
18:02:26, 948 Epoch[24] Batch 
18:02:41,578 Epoch[24] Batch 
18:02:56, 664 Epoch[24] Batch 
18:03:10, 766 Epoch[24] Batch 
18:03:26, 789 Epoch[24] Batch 
18:03:41,078 Epoch[24] Batch 
18:03:54,023 Epoch[24] Batch 
18:04:08, 684 Epoch[24] Batch 
18:04:23,121 Epoch[24] Batch 
18:04:38, 552 Epoch[24] Batch 
18:04:51, 305 Epoch[24] Batch 
18:05:05, 085 Epoch[24] Batch 
18:05:20, 407 Epoch[24] Batch 


图 5-22 ”第 1 次 迭代 


Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
Speed: 
18:05:22, 457 Epoch[24] Train-Perplexity=231. 


18:05:22, 457 Epoch[24] Time cost-377. 273 
18:05:37, 036 Epoch[24] Validation-Perplexity-230. 341161 


接着 进行 实验 测试 部 分 ， 具 体 代码 如 下 所 示 : 


samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 


107. 01 
104. 94 
114. 51 
120. 17 
115. 44 
110. 51 
111. 23 
113. 64 
121. 22 
126. 50 
103. 82 
109. 14 


samp les/sec 
samp |es/sec 
samp  es/sec 
samp les/sec 
samp les/sec 
samp les/sec 
samp les/sec 
samp |es/sec 
samp les/sec 
samp les/sec 
samp les/sec 
samp  es/sec 


96.10 samples/sec 


109. 91 
109. 37 
106. 07 
113. 45 


samp les/sec 
samp les/sec 
samp les/sec 
samp  es/sec 


99.86 samples/sec 


111. 98 
123. 59 
109. 14 
110. 83 
103. 69 
125. 48 
116. 10 
104. 43 
005402 


图 5-23 ”第 25 次 迭代 


samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 
samples/sec 


训练 时 间 以 及 训练 的 困难 度 的 信息 。 


Train-Perplexity=5679. 860328 
Train-Perplexity-2686. 906182 
Train-Perplexity-2252. 332191 
Train-Perplexity-1781. 096952 
Train-Perplexity-1506. 176826 
Train-Perplexity-1365. 519241 
Train-Perplexity-1307. 552276 
Train-Perplexity-1236. 577902 
Train-Perplexity-1166. 550204 
Train-Perplexity-1135. 977028 
Train-Perplexity-1072. 692720 
Train-Perplexity-1106. 414791 
Train-Perplexity-1065. 384614 
Train-Perplexity-1016. 335341 
Train-Perplexity-1001. 816209 
Train-Perplexity-992. 571254 
Train-Perplexity-962. 992582 
Train-Perplexity-973. 689953 
Train-Perplexity-973. 316395 
Train-Perplexity-936. 811276 
Train-Perplexity-971. 603665 
Train-Perplexity-889. 673644 
Train-Perplexity-910. 955112 
Train-Perplexity-882. 189036 
Train-Perplexity-908. 777351 
Train-Perplexity-893. 048748 


Train-Perplexity-210. 529209 
Train-Perplexity-228. 948939 
Train-Perplexity-214. 447025 
Train-Perplexity-228. 256333 
Train-Perplexity-210. 194951 
Train-Perplexity-210. 654526 
Train-Perplexity-216. 386501 
Train-Perplexity-215. 306353 
Train-Perplexity-222. 858726 
Train-Perplexity-214. 704402 
Train-Perplexity-219. 044652 
Train-Perplexity-217. 670149 
Train-Perplexity-213. 295806 
Train-Perplexity-209. 617196 
Train-Perplexity-230. 917028 
Train-Perplexity-212. 407684 
Train-Perplexity-235. 661218 
Train-Perplexity-211. 954683 
Train-Perplexity-214. 048537 
Train-Perplexity-231. 592416 
Train-Perplexity-226. 202681 
Train-Perplexity-205. 277128 
Train-Perplexity-202. 121349 
Train-Perplexity-229. 768568 
Train-Perplexity-208. 425657 
Train-Perplexity-218. 296672 





// 获 取 测 试 数据 集 


test sent, _ 





= tokenize text("./data/ptb.valid.txt", 


vocab = vocab, 
= start label, 








start label 


invalid label = invalid label) 

# 在 test iter 上 运行 模型 并 且 用 评估 矩阵 计算 分 数 

test iter = mx.rnn.BucketSentenceIter (test sent,args.batch size, 
buckets = buckets, 

invalid label - invalid label) 







































































per 
= mx.metric.Perplexity(invalid label) 

model.score(test iter, per) 

print (per) 











实验 测试 结果 为 EvalMetric{ Perplexity':242.01100530039176}， 在 测试 数据 上 的 困难 度 为 240 左 右 ， 与 最 好 的 训练 困难 度 比 较 接近 ， 说 明 该 模型 能 很 好 地 应 用 在 测试 数据 上 。 


最 后 对 实验 结果 进行 分 析 ， 从 训练 过 程 中 可 以 看 出 ， 在 进行 第 一 次 迭代 的 时 候 ，Train-Perplexity 训 练 困难 度 大 约 是 5679， 但 在 第 一 次 迭代 结束 时 Train-Perplexity 训 练 困 难度 已 经 显著 下 降 到 893， 在 
验证 集 上 的 困难 度 Validation-Perplexity 大 约 是 859， 说 明 对 数据 的 分 析 性 能 有 很 大 的 提升 。 在 进行 最 后 一 次 迭代 时 ，Train-Perplexity 已 经 下 降 到 200 左 右 ， 在 整个 训练 过 程 中 困难 度 能 够 保持 稳定 ， 在 
Validation-Perplexity 验 证 集 上 的 困难 度 大 约 是 230， 而 且 实 验 测 试 结果 困难 度 也 在 240 左 右 ， 与 训练 时 最 终 的 困难 度 非常 接近 。 由 此 可 见 ， 通 过 一 定 次 数 的 迭代 训 | 练 之 后 ， 该 模型 对 数据 的 分 析 性 能 也 越 来 
越 好 ， 训 练 的 困难 度 越 来 越 低 ， 并 能 很 好 地 应 用 于 测试 数据 中 。 


迁移 学 习 通 常 指 的 是 从 一 个 特定 的 任务 中 得 到 先 验 知识 (特征 提取 能 力 或 分 类 模型 ) 并 迁移 到 不 同 的 任务 中 ， 通 过 微调 或 冻结 的 迁移 策略 辅助 完成 相应 任务 。 深 度 学 习 获 得 的 特征 具有 很 强 的 迁移 能 
力 。 所 谓 特 征 迁移 能 力 ， 指 的 是 在 A 任 务 上 学 习 到 一 些 特征 ， 在 B 任 务 上 使 用 可 以 获得 非常 好 的 效果 。 例 如 ， 在 目标 识别 上 学 习 到 的 特征 在 场景 分 类 任务 上 也 能 取得 非常 好 的 效果 。 目 前 ， 深 度 学 习 在 多 种 目 
标 分 类 和 识别 任务 中 取得 了 优 于 传统 算法 的 结果 ， 并 产生 了 大 量 优秀 的 模型 ， 使 用 迁移 学 习 方 法 可 将 优秀 的 模型 应 用 在 其 他 任务 中 ， 通 过 蔡 换 输出 分 类 层 匹配 的 目标 任务 并 调整 网 络 参 数 来 完成 指定 分 类 任 
务 ， 在 减少 深度 学 习 训 练 时 间 的 前 提 下 提升 分 类 任务 性 能 ， 同 时 降低 对 训练 集 规模 的 依赖 。 本 章 将 通过 迁移 学 习 发 展 概述 、 迁 移 学 习 的 类 型 与 模型 、 迁 移 学 习 实 例 对 迁移 学 习 进行 介绍 与 分 析 。 


6.1 迁移 学 习 祥 展 概 述 


随 着 科技 的 不 断 发 展 和 数据 量 的 激增 ， 机 器 学 习 在 理论 与 实践 上 都 得 到 了 飞速 发 展 ， 传 统 机 器 学 习 要 求 数据 的 生成 机 制 不 随 环 境 的 变化 而 变化 ， 而 这 一 严格 假设 往往 在 各 个 应 用 领域 中 难以 成 立 。 由 于 
迁移 学 习 放 宽 了 传统 机 器 学 习 中 训练 数据 和 测试 数据 必须 服从 独立 分 布 的 约束 ， 使 其 能 够 挖掘 在 两 个 不 同 但 又 彼此 存在 联系 的 数据 集 之 间 的 本 质 结构 与 信息 ， 从 而 实现 先 验 知识 的 迁移 和 复 用 。 


在 传统 的 迁移 学 习 中 ， 基 于 特征 的 迁移 学 习 方 法 最 受 关注 ， 这 种 方法 是 把 源 域 和 目标 域 的 特征 映射 到 一 个 共同 的 潜在 特征 空间 ， 在 这 个 特征 空间 中 不 同 域 的 数据 近似 拥有 相同 的 数据 分 布 ， 从 而 使 得 在 
源 域 上 训练 的 分 类 器 具有 更 好 的 分 类 效果 。Pan 和 Yang 根 据 源 领 域 和 目标 领域 样本 是 否 标 注 及 任务 是 否 相 同 对 迁移 学 习 进 行 了 划分 。Shao 等 人 讨论 了 一 种 用 于 视觉 分 类 的 迁移 学 习 方 法 ， 该 方法 映射 源 领域 
数据 和 目标 领域 数据 到 一 个 泛 化 的 子 空间 内 ， 其 中 目标 领域 数据 可 以 被 表示 为 一 些 源 数据 的 组 合 ， 通 过 在 迁移 过 程 中 加 入 低 秩 约束 来 保持 源 领域 和 目标 领域 的 结构 。 


随 着 大 数据 的 发 展 和 计算 能 力 的 增强 ,深度 学 习 迎 来 了 又 一 个 春天 ， 成 为 当今 热门 的 研究 领域 之 一 。 近 些 年 ， 研 究 者 们 致力 于 将 深度 学 习 与 迁移 学 习 相 结合 以 研究 新 的 方法 的 可 用 性 。Shin 等 人 使 用 迁 
移 学 习 的 卷 积 神经 网 络 (CNN) 辅助 CT 图 像 的 分 类 和 识别 ， 获 得 了 更 高 的 分 类 准确 率 ， 证 明了 迁移 学 习 的 可 行 性 。Zeiler M D 对 卷 积 神经 网 络 提 取 的 特征 进行 反 卷 积 ， 重 构 出 对 应 的 输入 刺激 ， 通 过 分 析 重 
构 模 型 ， 探 索 图 片 中 刺激 网 络 产生 具体 特征 的 部 分 ， 从 而 探索 深度 学 习 的 泛 化 性 特征 。Jiang 等 人 认为 基于 特征 选择 的 迁移 学 习 方 法 就 是 识别 出 源 领 域 与 目标 领域 中 共有 的 特征 表示 ， 与 样本 类 别 高 度 相关 的 
那些 特征 应 该 在 训练 得 到 的 模型 中 被 赋予 更 高 的 权重 ， 然 后 利用 这 些 特 征 进 行 知识 迁移 。Oquab 提 出 了 一 种 新 的 迁移 学 习 方法 ， 将 从 大 数据 集 上 学 习 的 CNN 作 为 目标 集 的 底层 和 中 层 特 征 提 取 器 ， 并 修改 最 
后 的 全 连接 层 为 自 适应 特征 层 。Long M 等 人 证 明了 深度 特征 的 可 迁移 性 在 高 层 中 随 着 域 差异 而 显著 下 降 ， 因 此 ， 减 少数 据 集 的 偏差 和 加 强 特 定 任务 层 的 迁移 非常 重要 ， 他 们 提出 了 深度 学 习 的 域 适应 ， 以 
保证 学 习 迁 移 特征 和 减少 分 类 误差 。Tajbakhsh 等 人 的 进一步 分 析 表 明 ， 深 度 微调 在 性 能 提升 方面 优 于 浅 度 微调 ， 而 训练 集 尺 寸 的 降低 也 使 得 微调 的 重要 性 进一步 提高 。 


62 迁移 学 习 的 类 型 与 异型 


迁移 学 习 的 核心 是 从 现 有 的 相关 学 习 领 域 中 学 到 大 量 的 先 验 知识 ， 将 这 些 先 验 知识 从 源 领 域 迁移 到 目标 学 习 领 域 ， 用 来 帮助 目标 学 习 领 域 进行 学 习 。 本 节 将 分 别 从 训练 策略 和 训练 结构 出 发 对 深度 学 习 


模型 下 的 迁移 学 习 进 行 分 类 和 介绍 。 


6.2.1 “冻结 源 异型 与 微调 源 异型 


近 几 年 ， 在 深度 学 习 不 断 发 展 的 背景 下 ， 迁 移 学 习 得 到 进一步 的 发 展 。 影 响 迁 移 学 习 训练 策略 的 因素 多 种 多 样 ， 但 最 重要 的 三 个 是 新 目标 数据 集 的 大 小 、 新 目标 数据 集 与 源 数 据 集 之 间 的 相似 程度 以 及 
源 模型 中 参数 的 个 数 ， 根 据 这 三 个 因素 可 以 将 迁移 学 习 模 型 分 为 冻结 源 模型 和 微调 源 模型 。 


冻结 源 模型 是 指 对 于 固定 迁移 过 来 的 模型 参数 ， 在 新 任务 的 训练 过 程 中 只 改变 后 面 随机 初始 化 的 学 习 层 参数 。 当 模型 参数 较 多 并 且 新 目标 数据 集 与 源 数据 集 之 间 的 相似 程度 较 高 时 ， 一 般 首 选 冻结 源 模 


微调 源 模型 是 指 在 训练 过 程 中 微调 迁移 的 学 习 层 参数 。 当 数据 集 大 、 新 目标 数据 与 源 数 据 之 间 相 似 度 不 高 时 ， 要 想得到 较 高 的 准确 度 ， 对 迁移 模型 进行 微调 是 重要 且 必 要 的 。 


迁移 学 习 原 理 图 如 图 6-1 所 示 。 


相关 学 习 领 域 H py 27 Ci Sak 





微调 /冻结 
== 改进 后 的 


ITA 





图 6-1 迁移 学 习 原 理 图 


6.2.2 ” 昼 经 网 络 迁 移 学 习 模 型 与 分 类 器 迁移 学 习 模型 

根据 目标 模型 的 类 型 将 模型 结构 分 为 神经 网 络 模型 与 分 类 器 模型 ， 神 经 网 络 模型 即 用 目标 训练 集训 练 经 过 源 模 型 初始 化 的 神经 网 络 后 再 经 过 Softmax 层 进行 分 类 ， 而 分 类 器 模型 是 指 用 源 模型 对 目标 数 
据 集 进 行 特征 提取 ， 用 提取 出 的 特征 训练 分 类 器 (如 支持 向 量 机 SVM、 多 层 感 知 器 MLP) 。 

分 类 器 模型 如 图 6-2 所 示 。 分 类 器 模型 迁移 学 习 的 一 般 流程 是 : 

(1) 首先 利用 相关 领域 的 大 型 数据 集 对 卷 积 神经 网 络 进行 训练 形成 迁移 学 习 中 的 源 异型 。 

(2) 将 源 异型 当 作 特 征 提取 器 对 新 的 目标 数据 集 特征 进行 提取 。 


(3) 用 提取 后 的 特征 〈 即 图 6-2 中 椭圆 圈 起 的 全 连接 层 特 征 ) 训练 目标 任务 中 的 分 类 器 (SVM 或 MLP) ， 从 而 得 到 分 类 结果 。 








分 类 器 
(SVM 或 MLP) 


| 





a) 神经 网 络 RBM/ H ifi /新 的 全 新 接 层 b) 分 类 从 


图 6-2 ”神经 网 络 迁 移 学 习 模 型 与 分 类 器 迁移 学 习 模 型 
神经 网 络 模型 如 图 6-2a 所 示 。 神 经 网 络 模型 迁移 学 习 的 一 般 流 程 是 : 
1) 首先 利用 相关 领域 的 大 型 数据 集 对 CNN 模 型 进行 预 训练 。 


2) 在 得 到 各 层 的 初始 参数 后 ， 将 此 卷 积 神经 网 络 模 型 去 掉 全 连接 层 后 迁移 至 目标 模型 中 ， 目 标 模型 即 由 源 模型 的 卷 积 层 与 神经 网 络 〈 受 限 玻 耳 将 曼 机 RBM/ 自 编码 /新 的 全 连接 层 等 ) 连接 后 形成 的 。 
换 句 话说 ， 即 将 源 模型 中 的 全 连接 层 蔡 换 为 目标 任务 中 所 需 的 神经 网 络 模型 (RBM/ 自 编码 /新 的 全 连接 层 等 ) 。 


3) 用 目标 数据 集训 练 目 标 模型 ， 最 终 完成 对 目标 图 像 的 分 类 任务 。 


63 ”迁移 学 习 方法 实例 指导 


本 节 将 通过 实例 介绍 深度 学 习 模型 下 的 迁移 学 习 。 该 实例 在 Keras 下 运行 ， 以 VGG-16 作 为 源 模型 ，ImageNet 数 据 集 作为 源 数据 集 ，2000 张 猫 狗 图 像 (如 图 6-3 所 示 ) 作为 目标 训练 集 ， 目 标 模型 如 图 
6-4 所 示 ， 指 的 是 去 掉 全 连接 层 后 的 VGG-16 卷 积 层 与 新 的 全 连接 层 的 连接 结构 ， 其 中 新 的 全 连接 层 是 根据 目标 任务 ( 猫 狗 二 分 类 ) 所 构建 的 ， 源 模型 中 VGG-16 的 全 连接 层 用 于 将 图 像 分 为 1000 类 ， 而 目标 
模型 中 新 构建 的 全 连接 层 用 于 对 猫 狗 图 像 进行 二 分 类 。 之 后 ， 分 别 从 运行 时 间 与 分 类 精度 方面 对 实验 结果 进行 分 析 ， 从 而 证 明 迁 移 学 习 的 有 效 性 。 


目标 模型 分 为 两 部 分 : 第 一 部 分 利用 目标 模型 中 VGG-16 卷 积 层 对 目标 训练 集 进 行 特征 提取 ; 第 二 部 分 使 用 提取 的 底层 特征 训练 新 的 全 连接 神经 网 络 ， 最 终 输 出 二 分 类 结果 。 


63.1 迁移 学 习 应 用 示例 

假设 目前 有 2000 张 图 片 构成 的 数据 集 ， 数 据 集 由 两 个 类 别 (分 别 为 猫 类 和 狗 类 ) 组 成 ， 每 类 1000 张 (同时 拥有 额外 的 800 张 图 片 用 于 验证 ) 。 面 对 这 样 的 小 数据 集 ， 想 要 得 到 较 准确 的 分 类 效果 ， 迁 移 
学 习 将 会 是 一 种 比较 合适 的 选择 。 总 体 的 实现 思路 就 是 将 VGG-16 从 ImageNet 数 据 集 上 获得 的 先 验 知识 (深度 学 习 模 型 ) 迁 移 到 现 有 的 小 数据 集 下 的 猫 狗 分 类 任务 中 。 具 体 步骤 如 下 。 

第 一 步 : 构造 目标 训练 数据 集 与 目标 验证 数据 集 。 


Kaggle 数 据 集 是 2010 年 公开 的 ， 主 要 为 开发 商 和 数据 科学 家 提供 举办 机 器 学 习 竞 赛 、 托 管 数 据 库 等 任务 。 从 Kaggle 数 据 集 (其 中 包含 12500 只 猫 的 图 像 和 12500 只 狗 的 图 像 ) 中 取 各 类 的 前 1000 张 图 片 
作为 训练 集 ， 另 外 每 类 各 取 400 张 共 取 800 张 作为 验证 集 。 如 图 6-3 所 示 是 数据 集中 的 一 些 示例 图 片 。 





图 6-3 ”Kaggle 数 据 集中 的 猫 狗 示例 图 片 





主要 代码 如 下 所 示 : 

# 获 得 训练 数据 集 

train data dir = 'data/train' 

# 获 得 验证 数据 集 

validation data dir = 'data/validation' 


# 训 练 样本 设 定 为 2000 

nb train samples = 2000 

# 验 证 样本 设 定 为 800 

nb ` d A | samples = 800 
epochs 


Talk RE 更 新 块 的 大 小 为 16 
batch size = 16 


第 二 步 : IIEFIVGG-16FS2EUX:H2JeEBIUUIIEKSETIBSTEfEUH T LER SIE. VGG-16RB NSB KerashapplicationB POA RAY, EAR 
applications. VGG16(include top=False,weights='imagenet ) 直 接 获 取 模 型 卷 积 层 权 重 。 将 提取 的 训练 集 和 验证 集 的 特征 分 别 保存 在 bottleneck_ features train.npy 和 
bottleneck features validation.npy 文 件 中 。 


具体 的 代码 实现 如 下 所 示 : 








def save bottlebeck features () : 
# 图 片 预 处 理 ， 将 图 像 进行 缩放 
datagen = ImageDataGenerator (rescale=1. 255) 
oo CBE LINES Wi To 4 的 卷 积 层 权 重 
model = applications. vere ae Tuas OPNS sey weights-'imagenet') 
SEF SI s d e DA FE PEE F BR VILE SEE 
generator - datagen.f low from directory( 
train data dir, 
target ` size-(img width, img height), 
batch size-batch size, 
class mode-None, 
shuffle-False) 

































































# 使 用 VGG-16 模 型 提取 训练 集 特征 
bottleneck features train = model.predict generator ( 
i i generator, B 
nb train samples // batch | Size) 
# 将 提取 得 到 的 训练 集 特征 保存 在 bottleneck features train.npy' 中 
np.save(open('bottleneck features train.npy', Chu*y, 


bottleneck features train) 
# 使 用 数据 迭代 器 获取 指定 路 径 下 的 验证 集 
generator = datagen.flow from directory ( 
validation data dir, 
target size-(img width, img height), 
batch size-batch size, 
class | mode-None, 
shuffle-False) 




































































# 使 用 VGG-16 模 型 提取 验证 集 特征 
bottleneck features validation = model.predict generator ( 

generator, nb validation samples // batch size) 
# 将 提取 得 到 的 验证 集 特征 保存 在 "bottleneck features _validation. npy' 

np.save (open ('bottleneck features validation.npy', 'w'), 


bottleneck features validation) 
# 调 用 新 模型 特征 提取 函数 
save bottlebeck features () 






































第 三 步 : 如 图 6-4 所 示 ， 构 建新 的 全 连接 层 实 现 目标 任务 中 狂 狗 二 分 类 问题 。 使 用 上 一 步 获 取得 到 的 训练 特征 集 和 验证 特征 集训 练 新 构建 的 两 层 结构 的 全 连接 神经 网 络 ， 输 出 层 激 活 函 数 采 用 sigmoid 
设置 随机 隐 退 概率 为 0.5， 使 用 二 值 交叉 炳 肖 数 作为 损失 遂 数 进行 训练 。 


VGG-16 卷 积 层 

















图 6-4 ”目标 模型 示意 图 


主要 代码 实现 如 下 : 








top model weights path = 'bottleneck fc model.h5' 

def train top model(): 

Uns PRE "bottleneck features train.npy' 作 为 全 连接 层 的 训练 数据 集 

train data = np.load(open('bottleneck features train.npy') ) 

# 设 定 训练 数据 标签 

train labels = np.array([0] * (nb train samples / 2) + [1] * (nb train samples / 2)) 

# 加 载 已 经 保存 的 'bottleneck features validation.npy' 作 为 全 连接 层 的 验证 数据 集 

validation data = np.load(open('bottleneck features validation.npy')) 

# 设 定 验 证 数据 标签 7 i 

validation labels = np.array([0] * (nb validation samples / 2) + [1] 
*(nb validation samples / 2)) 

# 构 建 全 连接 层 


model = Sequential () 
# 在 全 连接 之 前 进行 扁平 化 
model.add(Flatten(input shape=train data.shape[1:])) 
# 在 第 一 层 全 连接 ， 设 置 为 64 维 ， 激 活 函 数 设 置 为 relu 
model.add(Dense (256, activation='relu')) 
# 使 用 随机 隐 退 策略 防止 过 拟 合 
model .add (Dropout (0.5) ) 
# 增 加 一 个 全 连接 层 ， 因 为 用 于 解决 二 分 类 问题 ， 所 以 设置 输出 维度 为 1 
# 输 出 层 激 活 函 数 设 置 为 sigmoid 
model.add(Dense(1, activation='sigmoid') ) 
Tt ELK PRUEBAS IR, RMAF Ermsprop, WEN X ZEE RAS 
model.compile (optimizer-'rmsprop', 

loss-'binary crossentropy', metrics-['accuracy']) 
# 网 络 开始 训练 


model.fit (train data, train labels, 

epochs=epochs, 

batch size-batch size, 

validation data- (validation data, validation labels)) 
# 两 层 全 连接 网 络 权重 保存 


model.save weights (top model weights path) 






















































































































































































6.3.2 ”实验 结论 


若 不 使 用 迁移 学 习 而 是 通过 VGG-16 直 接 对 样本 进行 训练 ， 不 仅 训 练 时 间 长 ， 同 时 很 有 可 能 由 于 样本 量 过 少 而 造成 过 拟 合 ， 通 过 迁移 学 习 由 于 特征 的 容量 很 小 ， 模 型 在 CPU 上 运行 也 会 很 快 ， 大 概 1s 一 
个 epoch， 时 间 得 到 缩短 的 同时 准确 率 也 可 保证 在 90% ~ 91%。 这 样 就 完成 了 将 VGG-16 从 ImageNet 数 据 集 上 获得 的 先 验 知识 迁移 到 小 数据 集 下 的 猎狗 分 类 任务 中 。 可 以 说 恰当 地 使 用 迁移 学 习 不 仅 让 小 数 
据 集 训练 出 高 准确 率 的 结果 变 成 了 现实 ， 同 时 也 节省 了 时 间 ， 具 有 很 高 的 研究 价值 。 


Ble 并行 计算 与 交叉 验证 


如 今 ， 随 着 数据 量 的 激增 和 计算 能 力 的 增强 ,深度 学 习 在 国内 外 产业 界 与 学 术 界 掀起 一 阵 狂潮 。 然 而 ， 随 着 深度 学 习 模 型 中 网 络 层 数 的 不 断 加 深 、 参 数 的 增多 、 计 算 量 的 加 大 ， 这 些 问题 所 带 来 的 计算 
速度 慢 、 消 耗资 源 多 的 问题 逐渐 成 为 不 可 忽视 的 挑战 ， 在 这 种 情况 下 加 快 训练 速度 变 得 十 分 重要 ， 而 并 行 计算 和 交叉 验证 就 是 加 快 训练 速度 和 保证 训练 精度 的 有 效 方法 。 


本 章 将 在 深度 学 习 的 背景 下 分 别 对 并 行 计算 和 交叉 验证 这 两 种 方法 进行 详细 介绍 。 


本 节 将 对 深度 学 习 背 景 下 的 并 行 计算 模型 进行 介绍 与 分 析 ， 并 行 计算 是 提高 训 | 练 速度 、 保 证 训练 精度 的 有 效 方法 之 一 ， 并 且 这 种 思想 被 广泛 应 用 于 深度 学 习 模 型 的 硬件 运用 以 及 模型 框架 中 ， 其 中 GPU 
加 速 能 力 就 运用 到 了 并 行 计算 的 思想 。GPU 加 速 中 的 重要 思想 “矢量 化 编程 ”是 提高 算法 速度 的 一 种 有 效 方法 。 为 了 提升 特定 数值 运算 操作 (如 矩阵 相 乘 、 和 矩 阵 相 加 、 和 矩阵 -向 量 乘法 等 ) 的 速度 ， 矢 量化 


编程 强调 单一 指令 并 行 操作 多 条 相似 数据 ， 形 成 单 指令 流 多 数据 流 的 编程 泛 型 。 通 过 并 行 计算 以 实现 最 终 的 加 速 目的 。 


本 节 将 重点 从 模型 结构 出 发 对 目前 深度 学 习 主要 采用 的 三 类 并 行 化 框架 进行 介绍 ， 这 三 种 框架 分 别 为 数据 并 行 、 模 型 并 行 和 混合 模型 。 


7.1.1 ”数据 并 行 框架 


数据 并 行 是 指 划 分 训练 数据 集 以 形成 多 个 数据 分 片 ， 采 用 多 个 模型 实例 (在 这 里 称 为 节点 ) 对 这 些 数据 分 片 进行 并 行 训练 ， 如 图 7-1 所 示 ， 其 具体 过 程 为 : 1) 每 个 节点 作为 模型 中 的 基本 单位 ， 各 自 训 
练 模 型 ， 互 相 独 立 ， 多 个 节点 间 并 行 训练 ;2) 各 个 节点 间 通 过 参数 服务 器 实现 模型 参数 的 交换 (更 新 ) ， 从 而 完成 新 模型 的 更 新 为 下 一 次 迭代 做 准备 。 即 首先 由 每 个 节点 将 各 自 训 练 所 得 的 权重 增 量 Aw 以 
及 偏 置 Ab 发 送 给 参数 服务 器 ， 再 由 参数 服务 器 通过 计算 w'=w-n'Aw、b'=b-n'Ab， 来 完成 对 参数 的 更 新 进而 形成 新 的 模型 。 其 中 w' 和 b 分 别 表示 更 新 后 的 权重 与 偏 置 ，n 为 学 习 率 。 将 更 新 后 的 参数 w 与 
b 返回 到 各 个 节点 以 进行 下 一 次 迭代 。 


w=w-y Aw, b=b-nAb 





图 7-1 深度 学 习 的 数据 并 行 框架 


数据 并 行 通常 分 为 两 种 类 型 ， 分 别 为 同步 模式 与 异步 模式 。 同 步 模式 是 指 在 同一 次 和 迭代 内 ， 所 有 的 节点 同时 开始 训练 同一 批 次 的 数据 ， 等 所 有 节点 训练 完成 后 将 训练 所 得 的 权重 增 量 与 偏 置 增 量 同时 传 
给 参数 服务 器 ， 当 所 有 的 节点 将 各 自 的 模型 更 新 后 ， 再 同时 进入 下 一 次 迭代 ;异步 模式 与 同步 模式 的 不 同 之 处 在 于 ， 在 异步 模式 中 当 有 一 个 节点 完成 自身 的 训练 任务 之 后 ， 该 节点 将 会 立刻 与 参数 服务 器 交 
换 参 数 而 不 考虑 其 他 节点 的 状态 。 异 步 模 式 中 一 个 训练 程序 的 最 新 结果 不 会 立刻 体现 在 其 他 训练 程序 中 ， 直 到 进行 下 次 参数 交换 。 


7.1.2 ”模型 并 行 框 染 


模型 并 行 是 指 当 模型 规模 较 大 以 至 于 内 存 无 法 容纳 该 模型 时 ， 需 要 将 该 模型 拆 分 成 几 个 分 片 ， 每 个 分 片 持 有 部 分 模型 ， 各 个 分 片 之 间 共 同 协作 已 完成 训练 。 如 图 7-2 所 示 为 该 模型 被 划分 为 4 个 分 片 ， 当 
不 同 分 片 内 的 神经 元 进行 交互 时 ， 将 产生 通信 开销 。 





图 7-2 深度 学 习 的 模型 并 行 框架 


713 ”数据 并 行 与 模型 并 行 的 混合 架构 


在 大 多 数 情况 下 ， 模 型 并 行 所 带 来 的 通信 开销 以 及 同步 开销 均 超过 数据 并 行 ， 但 对 于 单机 内 存 无 法 容纳 的 大 规模 模型 ， 光 赁 数据 并 行 是 不 能 解决 问题 的 。 并 且 数 据 并 行 与 模型 并 行 是 不 能 无 限 扩展 的 ， 
当 数 据 并 行 的 训练 程序 太 多 时 ， 为 保证 训练 过 程 的 平稳 就 有 必要 降低 学 习 率 ; 当 模 型 并 行 的 分 片 太 多 时 ， 会 造成 神经 元 输出 值 的 交换 量 急剧 增加 以 至 于 效率 大 幅 下 降 。 因 此 ， 可 以 将 数据 并 行 与 模型 并 行 相 
结合 ， 以 缓解 这 些 问题 。 如 图 7-3 所 示 为 混合 架构 的 结构 图 ，4 个 GPU 组 成 两 个 工作 组 ， 其 中 GPU1、GPU2 组 成 工作 组 1，GPU3、GPU4 组 成 工作 组 2， 形 成 一 种 工作 组 内 采用 模型 并 行 方案 、 工 作 组 间 采 用 
数据 并 行 方案 的 混合 结构 。 一 个 批 次 的 数据 结束 后 同色 的 GPU 之 间 交 换 模型 参数 。 


效 据 并 行 





模型 并 行 PEAT 
GPUI GPU2 GPU3 GPU4 


— | 
工作 组 1 工作 组 2 








图 7-3 ”数据 并 行 与 模型 并 行 的 混合 架构 由 
[1] 该 彩色 插图 可 从 华章 网 站 (www.hzbook.com) 下 载 查阅 。 


7.2 交叉 验证 
作为 提高 训练 速度 、 保 证 训练 精度 的 另 一 种 有 效 的 方法 ， 交 叉 验证 在 深度 学 习 中 得 到 了 广泛 的 应 用 。 交 叉 验证 (Cross Validation, CV) 也 称 作 循环 估计 (Rotation Estimation) ， 是 一 种 统计 学 上 将 
数据 样本 切割 成 较 小 子 集 的 实用 方法 ， 可 以 先 在 一 些 子 集 上 作 分 析 ， 而 其 他 子 集 则 用 来 做 后 续 对 此 分 析 的 验证 及 测试 ， 一 开始 的 子 集 被 称 为 训练 集 ， 而 其 他 子 集 则 被 称 为 验证 集 或 测试 集 。 


交叉 验证 对 于 人 工 智能 、 机 器 学 习 、 模 式 识别 、 分 类 器 等 研究 都 具有 很 强 的 指导 与 验证 意义 。 其 基本 思想 是 在 某 种 意义 下 将 原始 数据 集 (dataset) 进行 分 组 ， 一 部 分 作为 训练 集 (train set) ， 另 一 部 
分 作为 验证 集 (validation set 或 test set) ， 首 先 用 训练 集 对 分 类 器 进行 训练 ， 再 利用 验证 集 来 测试 训练 得 到 的 模型 (model) ， 以 此 作为 评价 分 类 器 的 性 能 指标 。 其 中 K 折 交叉 验证 使 用 得 最 多 。 


本 节 将 对 常见 的 交叉 验证 方法 一 一 留 出 法 、K 折 交叉 验证 、 留 一 交叉 验证 进行 详细 介绍 。 





72.1. BUE 

方法 : 将 原始 数据 随机 分 为 两 组 ， 一 组 作为 训练 集 ， 另 一 组 作为 验证 集 ， 利 用 训练 集训 练 分 类 器 ， 然 后 利用 验证 集 验证 模型 ， 记 录 最 后 的 分 类 准确 率 作为 留 出 法 (Hold-Out Method) 下 分 类 器 的 性 能 
指标 。 

优点 : 处 理 简单 ， 只 需 随机 把 原始 数据 分 为 两 组 即 可 。 


缺点 : 严格 意义 来 说 留 出 法 并 不 能 算是 CY， 因为 这 种 方法 没有 达到 交叉 的 思想 ， 由 于 是 将 原始 数据 随机 分 组 ， 最 后 验证 集 分 类 准确 率 的 高 低 与 原始 数据 的 分 组 有 很 大 关系 ， 所 以 这 种 方法 得 到 的 结果 其 
实 并 不 具有 说 服 性 。 主 要 原因 是 训练 集 样本 数 太 少 ， 通 常 不 足以 代表 原始 数据 的 分 布 ， 导 致 测试 阶段 辨识 率 容易 出 现 明显 落差 。 此 外 ， 留 出 法 中 一 分 为 二 的 分 割 方法 变异 度 大 ， 往 往 无 法 达到 “实验 过 程 必 
须 可 以 被 复制 ”的 要 求 。 图 7-4 是 留 出 法 的 示意 图 。 





图 7-4 ” 留 出 法 的 示意 图 


7.2.2 KK 折 交 又 验 证 


方法 : 将 原始 数据 分 成 K 组 子 集 (一 般 是 均 分 ) ， 将 每 个 子 集 数 据 分 别 做 一 次 验证 集 ， 其 余 的 K-1 组 子 集 数 据 作 为 训练 集 ， 这 样 会 得 到 K 个 模型 ， 用 这 K 个 模型 最 终 的 验证 集 分 类 准确 率 的 平均 数 作为 K 折 
交叉 验证 (K-CV) 下 分 类 器 的 性 能 指标 。K 一 般 大 于 或 等 于 2， 实 际 操作 时 一 般 从 3 开始 取 ， 只 有 在 原始 数据 集合 数据 量 小 的 时 候 才 会 尝试 取 2。Li Liu 等 人 为 了 获得 更 可 靠 的 评价 ， 为 每 一 个 新 的 GP 树 使 用 十 
音 交 叉 验证 估计 SVM 的 识别 精度 。Wei Shen 等 人 使 用 5 折 交 叉 验 证 评估 有 恶性 肿瘤 的 可 疑 性 、 精 细 度 、 边 缘 和 结 节 直 径 分 类 性 能 ， 在 实验 中 ， 三 折 作为 训练 集 ， 一 折 用 作 验 证 集 ， 剩 下 用 作 测试 集 。 


优点 : K-CV 可 以 有 效 地 避免 过 学 习 以 及 从 学 习 状态 的 发 生 ， 最 后 得 到 的 结果 也 比较 具有 说 服 性 。 


缺点 : 在 K 值 选取 上 存在 问题 。K 越 大 ， 每 次 投入 的 训练 集 的 数据 越 多 ， 模 型 的 偏差 越 小 。 但 是 K 越 大 ， 意 味 着 每 一 次 选取 的 训练 集 之 间 的 相关 性 越 大 (考虑 最 极端 的 例子 ， 当 K=N， 人 也 就 是 在 留 一 交叉 
验证 里 ， 每 次 的 训练 数据 几乎 是 一 样 的 ) 。 而 这 种 大 相关 性 会 导致 最 终 的 测试 误差 具有 更 大 的 方差 。 根 据 经 验 一 般 选 择 K=5 或 10。 如 图 7-5 所 示 为 10 折 交叉 验证 示意 图 。 
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图 7-5 10 析 交叉 验证 示意 图 


7.2.3” 留 一 交叉 验证 


方法 : 设 原始 数据 有 NN 个 样本 ， 那 么 留 一 交叉 验证 (Leave-One-Out Cross Validation, LOO-CV) 就 是 N-CV， 即 每 个 样本 单独 作为 验证 集 ， 其 余 的 N-1 个 样本 作为 训练 集 ， 所 以 LOO-CV 会 得 到 N 个 
模型 ， 用 这 N 个 模型 最 终 验 证 集 的 分 类 准确 率 的 平均 数 作 为 LOO-CV 分 类 器 的 性 能 指标 ， 如 图 7-6 所 示 。 
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图 7-6 留 一 交 又 验证 示意 图 


优点 : 相 比 于 K-CV，LOO-CV 有 两 个 明显 的 优点 。 第 一 ， 每 一 回合 中 几乎 所 有 的 样本 都 用 于 训练 模型 ， 因 此 最 接近 原始 样本 的 分 布 ， 这 样 评估 所 得 的 结果 比较 可 靠 。 第 二 ， 在 实验 过 程 中 没有 随机 因素 
会 影响 实验 数据 ， 确 保 实 验 过 程 是 可 以 被 复制 的 。 


缺点 : 计算 成 本 高 ， 因 为 需要 建立 的 模型 数量 与 原始 数据 样本 数量 相同 ， 当 原始 数据 样本 数量 相当 大 时 ，LOO-CV 在 实际 上 是 有 困难 的 ， 除 非 每 次 训练 分 类 器 得 到 模型 的 速度 很 快 ， 或 是 可 以 用 并 行 化 
计算 减少 计算 所 需 的 时 间 。 


交叉 验证 在 原始 数据 集 分 割 为 训练 集 与 测试 集 时 必须 注意 两 点 : 1) 训练 集中 样本 数量 必须 足够 多 ， 一 般 至 少 大 于 总 样本 数 的 50%。2) 训练 集 和 测试 集 必须 从 数据 集合 中 均匀 取样 。 其 中 第 2 点 特别 重 
要 ， 均 匀 取 样 的 目的 是 希望 减少 训练 集 / 测 试 集 与 完整 集合 之 间 的 偏差 。 一 般 的 做 法 是 随机 取样 ， 当 样本 数量 足够 时 ， 便 可 达到 均匀 取样 的 效果 。 
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